home.social

#inference — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #inference, aggregated by home.social.

  1. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  2. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  3. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  4. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  5. → Friends Don't Let Friends Use Ollama
    sleepingrobots.com/dreams/stop

    #Ollama’s entire inference capability comes from llama.cpp, the C++ #inference engine created by Georgi Gerganov in March 2023. Gerganov’s project is what made it possible to run LLaMA models on consumer #laptops at all, he hacked together the first version in an evening, and it kicked off the entire #local LLM movement. […] It’s truly #community-driven, #MIT-licensed, and under active development with 450+ #contributors.”

    #LLM

  6. Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

    Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс. Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация. В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер

    habr.com/ru/articles/1030440/

    #devops #kubernetes #mlops #helm #kserve #istio #machine_learning #inference #ai #deploy

  7. Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

    Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс. Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация. В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер

    habr.com/ru/articles/1030440/

    #devops #kubernetes #mlops #helm #kserve #istio #machine_learning #inference #ai #deploy

  8. Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

    Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс. Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация. В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер

    habr.com/ru/articles/1030440/

    #devops #kubernetes #mlops #helm #kserve #istio #machine_learning #inference #ai #deploy

  9. Гайды по nxs-universal-chart v3.0: AI Inference контур на основе KServe

    Итак, вы обучили модель и она показывает ожидаемые результаты. Теперь осталось выкатить её на контур, однако для этого необходим ряд компонентов: нужна маршрутизация трафика, непосредственно инференс. Желателен autoscaling модели, передача чувствительных данных, например креды до хранилища моделей. Ну и мониторинг не помешал бы. Каждый компонент - это отдельный Helm-чарт, отдельные CRD и отдельная документация. В итоге, вместо быстрого тестирования модели и гипотез, приходится заниматься YAML-инжинирингом и громко ругаться благим матом. Всем привет, на связи Пётр, инженер

    habr.com/ru/articles/1030440/

    #devops #kubernetes #mlops #helm #kserve #istio #machine_learning #inference #ai #deploy

  10. A quotation from Arthur Conan Doyle

    No, no: I never guess. It is a shocking habit, — destructive to the logical faculty.

    Arthur Conan Doyle (1859-1930) British writer and physician
    Story (1890-02), “The Sign of the Four,” ch. 1 [Holmes], Lippincott’s Monthly Magazine, Vol. 45 (US) / 1 (UK)

    More about this quote: wist.info/doyle-arthur-conan/8…

    #quote #quotes #quotation #qotd #arthurconandoyle #sherlock #holmes #sherlockholmes #deduction #discipline #guess #guesswork #inference #logic

  11. A quotation from Arthur Conan Doyle

    No, no: I never guess. It is a shocking habit, — destructive to the logical faculty.

    Arthur Conan Doyle (1859-1930) British writer and physician
    Story (1890-02), “The Sign of the Four,” ch. 1 [Holmes], Lippincott’s Monthly Magazine, Vol. 45 (US) / 1 (UK)

    More about this quote: wist.info/doyle-arthur-conan/8…

    #quote #quotes #quotation #qotd #arthurconandoyle #sherlock #holmes #sherlockholmes #deduction #discipline #guess #guesswork #inference #logic

  12. A quotation from Arthur Conan Doyle

    No, no: I never guess. It is a shocking habit, — destructive to the logical faculty.

    Arthur Conan Doyle (1859-1930) British writer and physician
    Story (1890-02), “The Sign of the Four,” ch. 1 [Holmes], Lippincott’s Monthly Magazine, Vol. 45 (US) / 1 (UK)

    More about this quote: wist.info/doyle-arthur-conan/8…

    #quote #quotes #quotation #qotd #arthurconandoyle #sherlock #holmes #sherlockholmes #deduction #discipline #guess #guesswork #inference #logic

  13. A quotation from Arthur Conan Doyle

    No, no: I never guess. It is a shocking habit, — destructive to the logical faculty.

    Arthur Conan Doyle (1859-1930) British writer and physician
    Story (1890-02), “The Sign of the Four,” ch. 1 [Holmes], Lippincott’s Monthly Magazine, Vol. 45 (US) / 1 (UK)

    More about this quote: wist.info/doyle-arthur-conan/8…

    #quote #quotes #quotation #qotd #arthurconandoyle #sherlock #holmes #sherlockholmes #deduction #discipline #guess #guesswork #inference #logic

  14. After A LOT of studying BLAS internals, my PR to the gemm crate is finally open: it introduces mixed-precision BF16 matmuls (optimal for use cases like small models doing autoregressive decoding on CPU)

    github.com/sarah-quinones/gemm

  15. As local AI adoption accelerates, traditional cloud-only inference is no longer sufficient. This article explores how hybrid inference architecture—combining local models with cloud-scale intelligence—enables a new paradigm: the “token factory.”

    Instead of treating AI as a monolithic service, this approach distributes token generation across edge devices and centralized systems, optimizing for latency, cost, and scalability. Local models handle high-throughput, low-latency token production, while larger models refine outputs only when necessary—dramatically reducing compute overhead and enabling real-time AI at scale.

    With enterprises facing rising inference costs and privacy constraints, hybrid architectures are emerging as a practical solution—delivering near cloud-level performance while maintaining control over data and infrastructure.

    buysellram.com/blog/hybrid-inf

  16. The Vanishing Cost of Intelligence: Why Box’s Aaron Levie Thinks AI Will Be Nearly Free by 2026 Box CEO Aaron Levie predicts AI token costs will approach zero by 2026, a claim with massive implic...

    #AITrends #CloudWorkPro #Aaron #Levie #Box #AI #inference #economics #AI #token #costs

    Origin | Interest | Match
  17. inference4j: Java Inference API for Onnx models. Run AI models in Java. Three lines of code, zero setup.

    #ai #inference #java #models #onnx

    github.com/inference4j/inferen

  18. Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

    Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

    habr.com/ru/articles/995416/

    #rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

  19. Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение

    «Данные закончились». «Архитектура исчерпана». «LLM упёрлись в потолок». Звучит умно. Проблема? Это одномерное мышление. Когда говорят «данные закончились» — имеют в виду текстовые данные для supervised pre-training. Это правда. Но это одна ось из шести , по которым модели становятся умнее. Inference-time compute (o1/o3), algorithmic efficiency (Mamba, MoE), мультимодальность, tool use, RL и self-play — пять осей, о которых забывают, когда хоронят AI. В 2020 году консенсус был: GPT-3 — потолок. В 2022: нужны триллионы токенов для каждого улучшения. В 2023: reasoning невозможен без symbolic AI. Все эти «потолки» были пробиты. Даю ментальную модель, которая позволит не попадаться на ложные прогнозы о «смерти AI» — и задавать правильные вопросы, когда кто-то уверенно предсказывает будущее.

    habr.com/ru/articles/992008/

    #llm #gpt #scaling_laws #machine_learning #transformer #inference #rlhf

  20. Turns out the current generation of model based AI cannot tell when it does not know the answer to a question; something humans can tell but prefer not to.

    I thought all my robots needed was an engine with capability.

  21. NVIDIA’s Inference Context Memory Storage Platform, announced at CES 2026, marks a major shift in how AI inference is architected. Instead of forcing massive KV caches into limited GPU HBM, NVIDIA formalizes a hierarchical memory model that spans GPU HBM, CPU memory, cluster-level shared context, and persistent NVMe SSD storage.

    This enables longer-context and multi-agent inference by keeping the most active KV data in HBM while offloading less frequently used context to NVMe—expanding capacity without sacrificing performance. This shift also has implications for AI infrastructure procurement and the secondary GPU/DRAM market, as demand moves toward higher bandwidth memory and context-centric architectures.

    buysellram.com/blog/nvidia-unv

    #NVIDIA #Rubin #AI #Inference #LLM #AIInfrastructure #MemoryHierarchy #HBM #NVMe #DPU #BlueField4 #AIHardware #GPU #DRAM #KVCache #LongContextAI #DataCenter #AIStorage #AICompute #AIEcosystem #tech

  22. NVIDIA’s Inference Context Memory Storage Platform, announced at CES 2026, marks a major shift in how AI inference is architected. Instead of forcing massive KV caches into limited GPU HBM, NVIDIA formalizes a hierarchical memory model that spans GPU HBM, CPU memory, cluster-level shared context, and persistent NVMe SSD storage.

    This enables longer-context and multi-agent inference by keeping the most active KV data in HBM while offloading less frequently used context to NVMe—expanding capacity without sacrificing performance. This shift also has implications for AI infrastructure procurement and the secondary GPU/DRAM market, as demand moves toward higher bandwidth memory and context-centric architectures.

    buysellram.com/blog/nvidia-unv

    #NVIDIA #Rubin #AI #Inference #LLM #AIInfrastructure #MemoryHierarchy #HBM #NVMe #DPU #BlueField4 #AIHardware #GPU #DRAM #KVCache #LongContextAI #DataCenter #AIStorage #AICompute #AIEcosystem #tech

  23. NVIDIA’s Inference Context Memory Storage Platform, announced at CES 2026, marks a major shift in how AI inference is architected. Instead of forcing massive KV caches into limited GPU HBM, NVIDIA formalizes a hierarchical memory model that spans GPU HBM, CPU memory, cluster-level shared context, and persistent NVMe SSD storage.

    This enables longer-context and multi-agent inference by keeping the most active KV data in HBM while offloading less frequently used context to NVMe—expanding capacity without sacrificing performance. This shift also has implications for AI infrastructure procurement and the secondary GPU/DRAM market, as demand moves toward higher bandwidth memory and context-centric architectures.

    buysellram.com/blog/nvidia-unv

    #NVIDIA #Rubin #AI #Inference #LLM #AIInfrastructure #MemoryHierarchy #HBM #NVMe #DPU #BlueField4 #AIHardware #GPU #DRAM #KVCache #LongContextAI #DataCenter #AIStorage #AICompute #AIEcosystem #tech

  24. NVIDIA’s Inference Context Memory Storage Platform, announced at CES 2026, marks a major shift in how AI inference is architected. Instead of forcing massive KV caches into limited GPU HBM, NVIDIA formalizes a hierarchical memory model that spans GPU HBM, CPU memory, cluster-level shared context, and persistent NVMe SSD storage.

    This enables longer-context and multi-agent inference by keeping the most active KV data in HBM while offloading less frequently used context to NVMe—expanding capacity without sacrificing performance. This shift also has implications for AI infrastructure procurement and the secondary GPU/DRAM market, as demand moves toward higher bandwidth memory and context-centric architectures.

    buysellram.com/blog/nvidia-unv

    #NVIDIA #Rubin #AI #Inference #LLM #AIInfrastructure #MemoryHierarchy #HBM #NVMe #DPU #BlueField4 #AIHardware #GPU #DRAM #KVCache #LongContextAI #DataCenter #AIStorage #AICompute #AIEcosystem #tech

  25. NVIDIA’s Inference Context Memory Storage Platform, announced at CES 2026, marks a major shift in how AI inference is architected. Instead of forcing massive KV caches into limited GPU HBM, NVIDIA formalizes a hierarchical memory model that spans GPU HBM, CPU memory, cluster-level shared context, and persistent NVMe SSD storage.

    This enables longer-context and multi-agent inference by keeping the most active KV data in HBM while offloading less frequently used context to NVMe—expanding capacity without sacrificing performance. This shift also has implications for AI infrastructure procurement and the secondary GPU/DRAM market, as demand moves toward higher bandwidth memory and context-centric architectures.

    buysellram.com/blog/nvidia-unv

  26. Sử dụng iGPU + dGPU để giảm tải CPU khi chạy inference: tải CPU giảm mạnh từ 33–47% xuống chỉ 1–6%, hệ thống im lặng, nhưng tốc độ xử lý giảm đáng kể (25.7 tok/s → 6.7 tok/s). Phù hợp với tác vụ dài, không yêu cầu tương tác tức thời. #iGPU #dGPU #CPUload #inference #AI #ollama #LaptopAI #HiệuSuất #TốiƯuHóa

    reddit.com/r/ollama/comments/1

  27. [Перевод] Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

    Команда AI for Devs подготовила перевод и разбор статьи о Prompt Caching — технологии, которая делает входные токены LLM в разы дешевле и заметно снижает задержки. Внутри — подробное объяснение, что именно кэшируют OpenAI и Anthropic, как KV-кэш связан с attention в трансформерах и почему это не имеет ничего общего с повторным использованием ответов.

    habr.com/ru/articles/978498/

    #prompt_caching #kv #cache #llm #transformers #attention #inference #embeddings #openai #anthropic

  28. Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

    Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

    habr.com/ru/articles/976382/

    #ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

  29. Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

    Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

    habr.com/ru/articles/976382/

    #ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

  30. Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

    Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

    habr.com/ru/articles/976382/

    #ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

  31. Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

    Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

    habr.com/ru/articles/976382/

    #ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

  32. KV Cache Optimization via Multi-Head Latent Attention Table of Contents KV Cache Optimization via Multi-Head Latent Attention Recap of KV Cache The Need for KV Cache Optimization Multi-Head Latent ...

    #KV #Cache #LLM #Inference #LLMs #Multi-Head #Latent #Attention #MultiHead #Attention #Tutorial

    Origin | Interest | Match
  33. KV Cache Optimization via Multi-Head Latent Attention Table of Contents KV Cache Optimization via Multi-Head Latent Attention Recap of KV Cache The Need for KV Cache Optimization Multi-Head Latent ...

    #KV #Cache #LLM #Inference #LLMs #Multi-Head #Latent #Attention #MultiHead #Attention #Tutorial

    Origin | Interest | Match
  34. Ah, behold the majestic #DeepSeekR1-0528, a model so #mysterious and elusive that not even #Inference #Providers dare to touch it. 🤔✨ With a grand total of zero downloads last month, it's clear that this #685B parameter behemoth is the hottest #AI sensation—if only in its creator's wildest dreams. 🐒💭
    huggingface.co/deepseek-ai/Dee #Parameters #HottestSensation #HackerNews #ngated