home.social

#inference — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #inference, aggregated by home.social.

  1. flexes spare to build private service
    Boffins at the Department of Energy’s (DoE) Argonne National Laboratory near Chicago on Tuesday unveiled a new service cobbled together from spare capacity.
    The hope is that the service can help researchers across the , including DoE labs and those working on the , advance scientific discovery across a range of fields.
    theregister.com/ai-ml/2026/05/

  2. #Argonne flexes spare #supercomputer to build private #AI #inference service
    Boffins at the Department of Energy’s (DoE) Argonne National Laboratory near Chicago on Tuesday unveiled a new #AIinference service cobbled together from spare #supercomputing capacity.
    The hope is that the service can help researchers across the #US, including DoE labs and those working on the #GenesisMission, advance scientific discovery across a range of fields.
    theregister.com/ai-ml/2026/05/ #HPC

  3. General Compute bets on inference-focused AI infrastructure using SambaNova chips

    📰 Original title: Has the hunt for AI compute uncovered the next Cerebras?

    🤖 IA: It's clickbait ⚠️
    👥 Users: It's clickbait ⚠️

    View full AI summary en.killbait.com/general-comput

    #artificialintelligence #aicompute #inference #neocloud

  4. [Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

    С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префилла и декодирования принципиально разные профили вычислений, но традиционные развёртывания заставляют их работать на одном оборудовании. В итоге GPU недозагружены, а масштабирование — негибкое. Дезагрегированный инференс решает эту проблему: разбивает конвейер на отдельные этапы — префилл, декодирование и маршрутизацию. Каждый этап работает как независимый сервис, который можно обеспечивать ресурсами и масштабировать на собственных условиях. Команда VK Cloud перевела статью, в которой разбирается, как развернуть дезагрегированный инференс в Kubernetes. Здесь мы посмотрим на разные решения экосистемы, как они работают в кластере и что дают «из коробки».

    habr.com/ru/companies/vktech/a

    #vk_cloud #llm #kubernetes #inference #gpu #nvidia #дезагрегированный_инференс #оркестрация #автомасштабирование #планирование_подов

  5. [Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

    С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префилла и декодирования принципиально разные профили вычислений, но традиционные развёртывания заставляют их работать на одном оборудовании. В итоге GPU недозагружены, а масштабирование — негибкое. Дезагрегированный инференс решает эту проблему: разбивает конвейер на отдельные этапы — префилл, декодирование и маршрутизацию. Каждый этап работает как независимый сервис, который можно обеспечивать ресурсами и масштабировать на собственных условиях. Команда VK Cloud перевела статью, в которой разбирается, как развернуть дезагрегированный инференс в Kubernetes. Здесь мы посмотрим на разные решения экосистемы, как они работают в кластере и что дают «из коробки».

    habr.com/ru/companies/vktech/a

    #vk_cloud #llm #kubernetes #inference #gpu #nvidia #дезагрегированный_инференс #оркестрация #автомасштабирование #планирование_подов

  6. [Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

    С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префилла и декодирования принципиально разные профили вычислений, но традиционные развёртывания заставляют их работать на одном оборудовании. В итоге GPU недозагружены, а масштабирование — негибкое. Дезагрегированный инференс решает эту проблему: разбивает конвейер на отдельные этапы — префилл, декодирование и маршрутизацию. Каждый этап работает как независимый сервис, который можно обеспечивать ресурсами и масштабировать на собственных условиях. Команда VK Cloud перевела статью, в которой разбирается, как развернуть дезагрегированный инференс в Kubernetes. Здесь мы посмотрим на разные решения экосистемы, как они работают в кластере и что дают «из коробки».

    habr.com/ru/companies/vktech/a

    #vk_cloud #llm #kubernetes #inference #gpu #nvidia #дезагрегированный_инференс #оркестрация #автомасштабирование #планирование_подов

  7. [Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

    С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префилла и декодирования принципиально разные профили вычислений, но традиционные развёртывания заставляют их работать на одном оборудовании. В итоге GPU недозагружены, а масштабирование — негибкое. Дезагрегированный инференс решает эту проблему: разбивает конвейер на отдельные этапы — префилл, декодирование и маршрутизацию. Каждый этап работает как независимый сервис, который можно обеспечивать ресурсами и масштабировать на собственных условиях. Команда VK Cloud перевела статью, в которой разбирается, как развернуть дезагрегированный инференс в Kubernetes. Здесь мы посмотрим на разные решения экосистемы, как они работают в кластере и что дают «из коробки».

    habr.com/ru/companies/vktech/a

    #vk_cloud #llm #kubernetes #inference #gpu #nvidia #дезагрегированный_инференс #оркестрация #автомасштабирование #планирование_подов

  8. "Unfortunately, it’s difficult to make a crisp comparison, but the proxies that we have suggest that demand is growing much faster. For instance, both the quantity of tokens processed by Google in the last year, and by all providers according to Exponential View, have been growing by around 10×/year.

    From another angle, we can look at token demand from today’s most intensive AI users: software engineers. Recent reports claim that some of Apple’s software engineers are permitted to use up to $300 in tokens per day, which works out to about 5 million output tokens per day with Claude Opus 4.7 API pricing, or 25 million output tokens per day with Kimi K2.6.16 Another point of comparison comes from Meta, whose 85,000 employees used 60 trillion tokens in one month across the organization. That figure included both input and output tokens; assuming a 25,000:1,000 input-to-output token ratio, that would be around 1 million output tokens per day and employee.

    There were about 30 million software engineers worldwide as of 2025 (estimates range from 20 million to 50 million), and Stack Overflow’s 2025 survey on AI usage suggested that only around 47% of developers used AI on a daily basis, as of mid-2025. If all SWEs using AI daily were using it as intensely as Meta or Apple, they would demand somewhere between 10 and 350 trillion tokens per day in aggregate, i.e., between 200 million and 4 billion tokens per second. At the longest context sizes of 128,000:1,000, today’s Blackwell chips would struggle to serve all this potential demand for coding agents using models as large as Kimi K2.6. It also seems likely that both the number of developers using AI, and the intensity of their use will continue to grow rapidly."

    epoch.ai/gradient-updates/is-a

    #AI #GenerativeAI #AIBubble #Compute #AIHype #DataCenters #Inference

  9. "Unfortunately, it’s difficult to make a crisp comparison, but the proxies that we have suggest that demand is growing much faster. For instance, both the quantity of tokens processed by Google in the last year, and by all providers according to Exponential View, have been growing by around 10×/year.

    From another angle, we can look at token demand from today’s most intensive AI users: software engineers. Recent reports claim that some of Apple’s software engineers are permitted to use up to $300 in tokens per day, which works out to about 5 million output tokens per day with Claude Opus 4.7 API pricing, or 25 million output tokens per day with Kimi K2.6.16 Another point of comparison comes from Meta, whose 85,000 employees used 60 trillion tokens in one month across the organization. That figure included both input and output tokens; assuming a 25,000:1,000 input-to-output token ratio, that would be around 1 million output tokens per day and employee.

    There were about 30 million software engineers worldwide as of 2025 (estimates range from 20 million to 50 million), and Stack Overflow’s 2025 survey on AI usage suggested that only around 47% of developers used AI on a daily basis, as of mid-2025. If all SWEs using AI daily were using it as intensely as Meta or Apple, they would demand somewhere between 10 and 350 trillion tokens per day in aggregate, i.e., between 200 million and 4 billion tokens per second. At the longest context sizes of 128,000:1,000, today’s Blackwell chips would struggle to serve all this potential demand for coding agents using models as large as Kimi K2.6. It also seems likely that both the number of developers using AI, and the intensity of their use will continue to grow rapidly."

    epoch.ai/gradient-updates/is-a

    #AI #GenerativeAI #AIBubble #Compute #AIHype #DataCenters #Inference

  10. "Unfortunately, it’s difficult to make a crisp comparison, but the proxies that we have suggest that demand is growing much faster. For instance, both the quantity of tokens processed by Google in the last year, and by all providers according to Exponential View, have been growing by around 10×/year.

    From another angle, we can look at token demand from today’s most intensive AI users: software engineers. Recent reports claim that some of Apple’s software engineers are permitted to use up to $300 in tokens per day, which works out to about 5 million output tokens per day with Claude Opus 4.7 API pricing, or 25 million output tokens per day with Kimi K2.6.16 Another point of comparison comes from Meta, whose 85,000 employees used 60 trillion tokens in one month across the organization. That figure included both input and output tokens; assuming a 25,000:1,000 input-to-output token ratio, that would be around 1 million output tokens per day and employee.

    There were about 30 million software engineers worldwide as of 2025 (estimates range from 20 million to 50 million), and Stack Overflow’s 2025 survey on AI usage suggested that only around 47% of developers used AI on a daily basis, as of mid-2025. If all SWEs using AI daily were using it as intensely as Meta or Apple, they would demand somewhere between 10 and 350 trillion tokens per day in aggregate, i.e., between 200 million and 4 billion tokens per second. At the longest context sizes of 128,000:1,000, today’s Blackwell chips would struggle to serve all this potential demand for coding agents using models as large as Kimi K2.6. It also seems likely that both the number of developers using AI, and the intensity of their use will continue to grow rapidly."

    epoch.ai/gradient-updates/is-a

    #AI #GenerativeAI #AIBubble #Compute #AIHype #DataCenters #Inference

  11. "Unfortunately, it’s difficult to make a crisp comparison, but the proxies that we have suggest that demand is growing much faster. For instance, both the quantity of tokens processed by Google in the last year, and by all providers according to Exponential View, have been growing by around 10×/year.

    From another angle, we can look at token demand from today’s most intensive AI users: software engineers. Recent reports claim that some of Apple’s software engineers are permitted to use up to $300 in tokens per day, which works out to about 5 million output tokens per day with Claude Opus 4.7 API pricing, or 25 million output tokens per day with Kimi K2.6.16 Another point of comparison comes from Meta, whose 85,000 employees used 60 trillion tokens in one month across the organization. That figure included both input and output tokens; assuming a 25,000:1,000 input-to-output token ratio, that would be around 1 million output tokens per day and employee.

    There were about 30 million software engineers worldwide as of 2025 (estimates range from 20 million to 50 million), and Stack Overflow’s 2025 survey on AI usage suggested that only around 47% of developers used AI on a daily basis, as of mid-2025. If all SWEs using AI daily were using it as intensely as Meta or Apple, they would demand somewhere between 10 and 350 trillion tokens per day in aggregate, i.e., between 200 million and 4 billion tokens per second. At the longest context sizes of 128,000:1,000, today’s Blackwell chips would struggle to serve all this potential demand for coding agents using models as large as Kimi K2.6. It also seems likely that both the number of developers using AI, and the intensity of their use will continue to grow rapidly."

    epoch.ai/gradient-updates/is-a

    #AI #GenerativeAI #AIBubble #Compute #AIHype #DataCenters #Inference

  12. "Unfortunately, it’s difficult to make a crisp comparison, but the proxies that we have suggest that demand is growing much faster. For instance, both the quantity of tokens processed by Google in the last year, and by all providers according to Exponential View, have been growing by around 10×/year.

    From another angle, we can look at token demand from today’s most intensive AI users: software engineers. Recent reports claim that some of Apple’s software engineers are permitted to use up to $300 in tokens per day, which works out to about 5 million output tokens per day with Claude Opus 4.7 API pricing, or 25 million output tokens per day with Kimi K2.6.16 Another point of comparison comes from Meta, whose 85,000 employees used 60 trillion tokens in one month across the organization. That figure included both input and output tokens; assuming a 25,000:1,000 input-to-output token ratio, that would be around 1 million output tokens per day and employee.

    There were about 30 million software engineers worldwide as of 2025 (estimates range from 20 million to 50 million), and Stack Overflow’s 2025 survey on AI usage suggested that only around 47% of developers used AI on a daily basis, as of mid-2025. If all SWEs using AI daily were using it as intensely as Meta or Apple, they would demand somewhere between 10 and 350 trillion tokens per day in aggregate, i.e., between 200 million and 4 billion tokens per second. At the longest context sizes of 128,000:1,000, today’s Blackwell chips would struggle to serve all this potential demand for coding agents using models as large as Kimi K2.6. It also seems likely that both the number of developers using AI, and the intensity of their use will continue to grow rapidly."

    epoch.ai/gradient-updates/is-a

    #AI #GenerativeAI #AIBubble #Compute #AIHype #DataCenters #Inference

  13. MELT-1: трансформер 7B сдыхает за 11 часов, а наш агент живёт 95

    TL;DR. Мы выкатили открытый бенчмарк MELT-1 — он меряет не сколько модель знает в идеальных условиях (MMLU & co), а сколько она проживёт под дрифтом распределения и сколько стоит держать её живой. Три оси: $/1M успешных решений, часы до деградации без ретрейна, p99-латентность сенсор→актуатор под 40 °C. 30 суток непрерывного инференса, 5 сидов, два температурных профиля, sensitivity-анализ. На closed-loop manipulation наш агент (Metabolic AI, non-transformer) против Llama-class 7B INT8 показал 9.4× по стоимости, 8.5× по выживанию под дрифтом, ~1600× композитно. Архитектура закрыта — патент на стадии экспертизы. Бенч открытый: харнесс, сцены, оракул, sensitivity-скрипты, опубликованный VAE-энкодер дрифта. Прогоните своих агентов и положите рядом. PDF с полной методологией и threats to validity — в конце статьи. Посмотреть

    habr.com/ru/articles/1036098/

    #inference #aiагенты #суверенный_ии

  14. MELT-1: трансформер 7B сдыхает за 11 часов, а наш агент живёт 95

    TL;DR. Мы выкатили открытый бенчмарк MELT-1 — он меряет не сколько модель знает в идеальных условиях (MMLU & co), а сколько она проживёт под дрифтом распределения и сколько стоит держать её живой. Три оси: $/1M успешных решений, часы до деградации без ретрейна, p99-латентность сенсор→актуатор под 40 °C. 30 суток непрерывного инференса, 5 сидов, два температурных профиля, sensitivity-анализ. На closed-loop manipulation наш агент (Metabolic AI, non-transformer) против Llama-class 7B INT8 показал 9.4× по стоимости, 8.5× по выживанию под дрифтом, ~1600× композитно. Архитектура закрыта — патент на стадии экспертизы. Бенч открытый: харнесс, сцены, оракул, sensitivity-скрипты, опубликованный VAE-энкодер дрифта. Прогоните своих агентов и положите рядом. PDF с полной методологией и threats to validity — в конце статьи. Посмотреть

    habr.com/ru/articles/1036098/

    #inference #aiагенты #суверенный_ии

  15. MELT-1: трансформер 7B сдыхает за 11 часов, а наш агент живёт 95

    TL;DR. Мы выкатили открытый бенчмарк MELT-1 — он меряет не сколько модель знает в идеальных условиях (MMLU & co), а сколько она проживёт под дрифтом распределения и сколько стоит держать её живой. Три оси: $/1M успешных решений, часы до деградации без ретрейна, p99-латентность сенсор→актуатор под 40 °C. 30 суток непрерывного инференса, 5 сидов, два температурных профиля, sensitivity-анализ. На closed-loop manipulation наш агент (Metabolic AI, non-transformer) против Llama-class 7B INT8 показал 9.4× по стоимости, 8.5× по выживанию под дрифтом, ~1600× композитно. Архитектура закрыта — патент на стадии экспертизы. Бенч открытый: харнесс, сцены, оракул, sensitivity-скрипты, опубликованный VAE-энкодер дрифта. Прогоните своих агентов и положите рядом. PDF с полной методологией и threats to validity — в конце статьи. Посмотреть

    habr.com/ru/articles/1036098/

    #inference #aiагенты #суверенный_ии

  16. MELT-1: трансформер 7B сдыхает за 11 часов, а наш агент живёт 95

    TL;DR. Мы выкатили открытый бенчмарк MELT-1 — он меряет не сколько модель знает в идеальных условиях (MMLU & co), а сколько она проживёт под дрифтом распределения и сколько стоит держать её живой. Три оси: $/1M успешных решений, часы до деградации без ретрейна, p99-латентность сенсор→актуатор под 40 °C. 30 суток непрерывного инференса, 5 сидов, два температурных профиля, sensitivity-анализ. На closed-loop manipulation наш агент (Metabolic AI, non-transformer) против Llama-class 7B INT8 показал 9.4× по стоимости, 8.5× по выживанию под дрифтом, ~1600× композитно. Архитектура закрыта — патент на стадии экспертизы. Бенч открытый: харнесс, сцены, оракул, sensitivity-скрипты, опубликованный VAE-энкодер дрифта. Прогоните своих агентов и положите рядом. PDF с полной методологией и threats to validity — в конце статьи. Посмотреть

    habr.com/ru/articles/1036098/

    #inference #aiагенты #суверенный_ии

  17. #dAI network controls. No ownership because it's #automated. Nobody has a finger on a lever or a button. Of course there have to be #maintenance #protocols with oversight, but nobody owns it. Your participation is your #reputation and your #scrape. You pay your own way with shared #inference time.

    RE: https://bsky.app/profile/did:plc:bpsosbombacnrcar6yci72mr/post/3mltjf233wp2e

  18. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  19. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  20. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  21. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  22. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  23. The Inference Shift: Ben Thompson splits "inference" into two workloads. Answer inference (human waiting) stays on premium GPUs; agentic inference (no human waiting) migrates to commodity memory hierarchy. Familiar shape: the 70s batch-off-mainframes migration may rerun on today's GPU clusters.

    benjaminhan.net/posts/20260511

    #AI #AgenticSystems #Inference #tech

  24. The Inference Shift: Ben Thompson splits "inference" into two workloads. Answer inference (human waiting) stays on premium GPUs; agentic inference (no human waiting) migrates to commodity memory hierarchy. Familiar shape: the 70s batch-off-mainframes migration may rerun on today's GPU clusters.

    benjaminhan.net/posts/20260511

    #AI #AgenticSystems #Inference #tech

  25. The Inference Shift: Ben Thompson splits "inference" into two workloads. Answer inference (human waiting) stays on premium GPUs; agentic inference (no human waiting) migrates to commodity memory hierarchy. Familiar shape: the 70s batch-off-mainframes migration may rerun on today's GPU clusters.

    benjaminhan.net/posts/20260511

    #AI #AgenticSystems #Inference #tech

  26. The Inference Shift: Ben Thompson splits "inference" into two workloads. Answer inference (human waiting) stays on premium GPUs; agentic inference (no human waiting) migrates to commodity memory hierarchy. Familiar shape: the 70s batch-off-mainframes migration may rerun on today's GPU clusters.

    benjaminhan.net/posts/20260511

    #AI #AgenticSystems #Inference #tech

  27. The Inference Shift: Ben Thompson splits "inference" into two workloads. Answer inference (human waiting) stays on premium GPUs; agentic inference (no human waiting) migrates to commodity memory hierarchy. Familiar shape: the 70s batch-off-mainframes migration may rerun on today's GPU clusters.

    benjaminhan.net/posts/20260511

    #AI #AgenticSystems #Inference #tech

  28. Anthropic y el Superordenador Co…

    El Colossus 1 de SpaceX es un superordenador diseñado para realizar tareas complejas de inference en modelos de inteligencia artificial.

    norvik.tech/news/analisis-anth

    #Technology #Anthropic #Colossus1 #Superordenador #Inference #NorvikTech #DesarrolloSoftware #TechInnovation

  29. Anthropic y el Superordenador Co…

    El Colossus 1 de SpaceX es un superordenador diseñado para realizar tareas complejas de inference en modelos de inteligencia artificial.

    norvik.tech/news/analisis-anth

    #Technology #Anthropic #Colossus1 #Superordenador #Inference #NorvikTech #DesarrolloSoftware #TechInnovation

  30. Anthropic y el Superordenador Co…

    El Colossus 1 de SpaceX es un superordenador diseñado para realizar tareas complejas de inference en modelos de inteligencia artificial.

    norvik.tech/news/analisis-anth

    #Technology #Anthropic #Colossus1 #Superordenador #Inference #NorvikTech #DesarrolloSoftware #TechInnovation