home.social

#инференс — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #инференс, aggregated by home.social.

  1. Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMax

    Итак, вы внедрили ИИ в свой сервис и решили ехать в продакшен, где у вас много пользователей. Закономерно возникает вопрос — а на чем запустить инференс, чтобы и пользователи были довольны скоростью работы, и бизнес не разорился. Привет! На связи Никита, системный архитектор Читать далее →

    habr.com/ru/companies/selectel

    #selectel #инференс #llm #gpu #nvidia #dgx #hgx_b300

  2. NPU в ноутбуках: что меняется для тех, кто закупает корпоративную технику

    Привет, Хабр! Меня зовут Артем, я дата-инженер. В работе часто приходится выбирать: гонять вычисления в облаке или делать их ближе к данным, и у каждого варианта свои больные места. Но недавно ИИ-нагрузки начали переезжать с облачных GPU на обычные ноутбуки — Microsoft вписала нейропроцессор в требования к Copilot+ PC, AMD и Intel встраивают NPU прямо в SoC. Мне стало любопытно: что там на самом деле происходит? За маркетинговой шумихой скрывается сдвиг к гибридной архитектуре: тяжёлое остаётся в облаке, массовые задачи разъезжаются по устройствам сотрудников. Это меняет работу тех, кто такой парк закупает и обслуживает — добавляются требования к памяти и поддержке конкретных ИИ-фреймворков, появляется новая задача доставки и обновления моделей на устройствах, а горизонт планирования у ИТ-отделов оказывается короче, чем кажется. Я заинтересовался темой после одного бенчмарка : NPU в ноутбуке AMD Ryzen AI 300 генерировал изображение 70 секунд, а встроенный GPU того же чипа справлялся за 30 — специализированный нейропроцессор проиграл универсальному вдвое на задаче, под которую его затачивали. Через эту аномалию хорошо видно, как устроены три процессора в одном SoC. Разберём: чем NPU отличается от соседей по чипу, почему всё упирается в память, как LLM удаётся уместить на ноутбуке и что из этого реально работает в корпоративной среде уже сейчас.

    habr.com/ru/companies/ru_mts/a

    #NPU #Искусственный_интеллект #LLM #Железо #Процессоры #Ноутбуки #Машинное_обучение #Инференс #Copilot+_PC #Корпоративные_технологии

  3. Новая архитектура для агентов: как Intel и SambaNova разделили инференс между GPU, RDU и CPU

    В апреле 2026-го Intel и ИИ-платформа SambaNova опубликовали совместный blueprint гетерогенного инференса: prefill — на GPU, decode — на SambaNova SN50 RDU, агентские действия — на Intel Xeon 6. Готовое решение обещают во второй половине 2026-го, и оно встает в обычную стойку 30 кВт с воздушным охлаждением, без капитальных переделок машинного зала. Идея такая: как только случился массовый приход агентов, decode перестал быть побочной фазой и становится доминирующей нагрузкой, а монолитная архитектура «GPU на всё» начала просаживаться по экономике. Коротко разберем, как это работает и почему это может стать востребованным.

    habr.com/ru/companies/ru_mts/a

    #Intel #SambaNova #Nvidia #Xeon_6 #RDU #SN50 #GPU #LLM #инференс #ИИинфраструктура

  4. DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

    NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

    habr.com/ru/articles/1033342/

    #vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

  5. В DigitalOcean запустили серверный инференс DeepSeek V3.2, MiniMax-M2.5 и Qwen 3.5 397B с рекордной скоростью 230 токенов в секунду Н...

    #DigitalOcean #запустили #серверный #инференс #DeepSeek #V3.2, #MiniMax-M2.5 #Qwen #3.5

    Origin | Interest | Match
  6. vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

    Привет, Хабр! Меня зовут Кирилл Нетреба , я Backend-ML-инженер в Авито . В этой статье я разберу, как мы научили платформу отыскивать нужные пользователю объявления, даже если в них нет соответствующего запросу текста . Мы препарируем связку из Qwen2.5-VL, фреймворка vLLM и LoRA-адаптеров, а также заглянем в бэкенд-инфраструктуру, которая переваривает миллионы обновлений в сутки без деградации latency. Это история о том, как в эпоху, когда традиционный полнотекстовый поиск бессилен перед лаконичностью пользователей, ему на помощь приходит машина, обученная на изображениях и языке.

    habr.com/ru/companies/avito/ar

    #vllm #loraадаптеры #llm #инференс #мультимодальные_модели

  7. Compute crunch пришёл: как считать экономику LLM в 2026

    Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

    habr.com/ru/articles/1024850/

    #LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

  8. Compute crunch пришёл: как считать экономику LLM в 2026

    Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

    habr.com/ru/articles/1024850/

    #LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

  9. Compute crunch пришёл: как считать экономику LLM в 2026

    Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

    habr.com/ru/articles/1024850/

    #LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

  10. Compute crunch пришёл: как считать экономику LLM в 2026

    Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

    habr.com/ru/articles/1024850/

    #LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

  11. DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры

    Device plugin умеет выделять только целочисленные ресурсы: одну карту, две карты — или одну MIG‑партицию, но не «полкарты» и не «30% памяти». В реальности же нужны доли памяти, учёт топологии, предсказуемые обновления и изоляция, а не пулы лейблов и кастомные шедулеры. Разобрал, почему индустрия устала от костылей, как это проявляется в настоящем AI‑кластере и что именно пытается исправить DRA. Читать, если хотите управлять ресурсами явно, а не тушить пожары по расписанию. Понять, куда двигаться

    habr.com/ru/companies/flant/ar

    #gpu #device_plugin #dra #nvidia #mig #volcano #volcano_scheduler #инференс #gpu_operator #llm

  12. TurboQuant. Новый алгоритм сжатия от Google

    Google Research выпустили TurboQuant - новый алгоритм сжатия данных, который сокращает объём кэш-памяти LLM как минимум в 6 раз и даёт ускорение до 8 раз . При этом заявляется отсутствие потерь в точности, что напрямую влияет на эффективность работы ИИ.

    habr.com/ru/articles/1015092/

    #TurboQuant #Google #google_research #llm #инференс #сжатие_данных

  13. Конец эпохи вероятностного ИИ: почему гонка за GPU от Nvidia — это архитектурный тупик

    Индустрия генеративного искусственного интеллекта больна . Симптомы этой болезни видны невооруженным глазом: шесть пальцев на руках, нарушенная геометрия объектов в движении и рассинхрон звука с артикуляцией (AV-desync). Но вместо того, чтобы лечить причину математикой , техногиганты пытаются заглушить боль грубой силой, заливая проблему деньгами и сжигая мегаватты энергии на кластерах Nvidia H100 . Сегодня мы наблюдаем классическую архитектурную ошибку: попытку решить фундаментальный математический изъян экстенсивным наращиванием "железа". И эта гонка приведет к неизбежному краху текущей бизнес-модели монополистов.

    habr.com/ru/articles/1014130/

    #генеративный_ИИ #инференс #галлюцинации_нейросетей #архитектура_ИИ #оптимизация_вычислений #детерминированные_алгоритмы #ASIC #GPU #Nvidia #WebAssembly

  14. Линейка HighFreq или как выжать из облака максимум для инференса, ML и других высоких нагрузок

    «Больше» — не всегда значит «лучше». К пользовательским приложениям в облаках это замечание относится в полной мере. Производительность любой системы определяется ее самым медленным компонентом — «бутылочным горлышком». Когда проект вырастает до высоких нагрузок, простое «накликивание» дополнительных виртуальных процессоров или оперативной памяти в стандартной конфигурации может не решить корневую проблему. Это все равно, что расширять дорогу перед железнодорожным переездом — новых полос много, но быстрее доехать не получится. Сегодня мы разберем, почему стандартных, универсальных инструментов бывает недостаточно для высокопроизводительных задач. Мы также покажем, как правильно диагностировать узкие места и подбирать сбалансированную конфигурацию — процессор, диски, сеть — под конкретные рабочие нагрузки. Сделаем это на примере реальных сценариев и продуктов. Посмотрим, что могут специализированные решения дать там, где универсальные подходы не справляются. Читать далее →

    habr.com/ru/companies/selectel

    #selectel #инфраструктура #ии #ml #инференс #облако

  15. Ускоряем инференс в Python с ONNX

    Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки. Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как! Ускорить инференс

    habr.com/ru/companies/otus/art

    #python #ONNX #инференс #ускорение_моделей #бенчмаркинг

  16. Ускоряем инференс в Python с ONNX

    Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки. Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как! Ускорить инференс

    habr.com/ru/companies/otus/art

    #python #ONNX #инференс #ускорение_моделей #бенчмаркинг

  17. Ускоряем инференс в Python с ONNX

    Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки. Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как! Ускорить инференс

    habr.com/ru/companies/otus/art

    #python #ONNX #инференс #ускорение_моделей #бенчмаркинг

  18. Ускоряем инференс в Python с ONNX

    Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки. Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как! Ускорить инференс

    habr.com/ru/companies/otus/art

    #python #ONNX #инференс #ускорение_моделей #бенчмаркинг

  19. LLM модель qwen3-coder-next быстрый тест на локальном сервере

    Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

    habr.com/ru/articles/992854/

    #сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

  20. LLM модель qwen3-coder-next быстрый тест на локальном сервере

    Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

    habr.com/ru/articles/992854/

    #сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

  21. LLM модель qwen3-coder-next быстрый тест на локальном сервере

    Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

    habr.com/ru/articles/992854/

    #сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

  22. LLM модель qwen3-coder-next быстрый тест на локальном сервере

    Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

    habr.com/ru/articles/992854/

    #сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

  23. Как я написал TTS-движок на Rust за месяц: путь от Python к production-ready решению

    Что будет, если выкинуть Python-обвязку и сделать TTS по-взрослому? Я взял Qwen3-TTS и за месяц собрал RustTTS : компактный бинарник, быстрый старт, стриминг и контролируемый инференс без “venv на 2 ГБ”. Покажу, как устроен пайплайн (text → tokens → audio), где реально узкие места, какие оптимизации дают эффект, и почему RTF на CPU может быть конкурентным, если не стрелять себе в ногу архитектурой.

    habr.com/ru/articles/990328/

    #rust #tts #texttospeech #синтез_речи #speech_synthesis #inference #инференс #realtime #стриминг #low_latency

  24. Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

    Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

    habr.com/ru/articles/976382/

    #ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

  25. Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

    Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

    habr.com/ru/articles/976382/

    #ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

  26. Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

    Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

    habr.com/ru/articles/976382/

    #ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

  27. Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

    Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

    habr.com/ru/articles/976382/

    #ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

  28. Что нового в NVIDIA Rubin CPX — платформе для AI, представленной на AI Infra Summit

    9 сентября NVIDIA представила новый графический процессор Rubin CPX, разработанный специально для задач искусственного интеллекта с длинным контекстом. Этот монолитный чип оснащен 128 ГБ памяти GDDR7, способен обрабатывать миллионы токенов информации и оптимизирован для фазы предварительной обработки данных в задачах инференса. В деталях рассказываем, какую мощность выдает новинка и для какой работы подходит.

    habr.com/ru/companies/mclouds/

    #графические_процессоры #gpu #nvidia #rubin #искусственный_интеллект #gddr7 #инференс #программный_код #обработка_данных

  29. [Перевод] Архитектура LPU и будущее AI без задержек

    Команда AI for Devs подготовила перевод статьи о том, как Groq пытается устранить главное «бутылочное горлышко» современного ИИ — задержку. Их специализированный процессор LPU обещает скорость в реальном времени и открывает путь к новым приложениям: от финансовых систем до Coding AI-ботов. Но за пределами маркетинга остаются вопросы: что с большими контекстами, какова конкуренция с Cerebras и GPU, и выдержит ли бизнес-модель такие вызовы?

    habr.com/ru/articles/945894/

    #Groq #LPU #инференс #задержка #ai #gpu

  30. Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций

    В процессе разработки RAG-системы для обработки видеоконтента передо мной встала задача генерации качественных описаний для большого объема видео-клипов с использованием мультимодальных языковых моделей. Клипы имели продолжительность около 10 секунд, в отдельных экспериментах мы тестировали материал длиной в несколько десятков секунд. Финальные описания составляли от 300 до 2000 токенов и после генерации разбивались на чанки для индексации в векторной базе данных.

    При тестировании различных подходов обнаружились значительные различия в скорости и качестве обработки. Компактные модели, работающие с отдельными кадрами изображений (Phi, DeepSeekVL2, Moondream), демонстрировали существенно более высокую скорость по сравнению с моделями полноценной обработки видео, однако качество генерируемых описаний оставляло желать лучшего. Типичный workflow включал конкатенацию описаний отдельных кадров, при этом в DeepSeekVL2 дополнительно использовался system prompt для более интеллигентного объединения результатов анализа кадров.

    Модели для обработки изображений стабильно укладывались в временные рамки 3-5 секунд на клип, что значительно быстрее требуемого лимита. Полноценные видео-модели, получающие на вход целые видеоклипы, изначально генерировали описания за 30 секунд на vanilla PyTorch. Применение VLLM ускорило процесс до 12-15 секунд, а SGLang позволил достичь целевых 8-10 секунд на клип. Эти временные рамки позволили настроить обработку на кластере из 20 RTX 4090 и сгенерировать около миллиона описаний за месяц для production-системы.

    Благодаря применению различных техник оптимизации инференса удалось не только достичь поставленных временных целей, но и существенно превзойти их, завершив генерацию необходимого объема описаний за две недели вместо месяца. Система успешно развернута в продакшене и демонстрирует стабильную производительность.

    Данная статья представляет систематизированный анализ практического опыта оптимизации инференса мультимодальных LLM, полученного в ходе решения реальной production-задачи. Особое внимание уделяется сравнению эффективности различных подходов к ускорению, включая современные специализированные фреймворки VLLM и SGLang, а также аппаратные оптимизации на базе TensorRT.

    habr.com/ru/articles/936110/

    #оптимизация #инференс #анализ #подходы #модель #видео

  31. [Перевод] Что же такое TPU

    В последнее время я много работал с TPU и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU. Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA). Общая информация Если вкратце, то TPU — это ASIC компании Google, делающий упор на два фактора: огромную производительность перемножения матриц + энергоэффективность. Их история началась в Google в 2006 году, когда компания впервые начала размышлять о том, что же ей стоит реализовывать: GPU, FPGA или специализированные ASIC. В те времена было лишь несколько областей применения, в которых требовалось специализированное оборудование, поэтому было решено, что потребности компании можно удовлетворить при помощи незадействованных вычислительных ресурсов (compute) CPU её крупных датацентров. Но в 2013 году ситуация изменилась: функция голосового поиска Google начала использовать нейросети, и по расчётам для её реализации потребовалось бы гораздо больше compute. Перенесёмся в настоящее: сегодня TPU лежат в основе большинства ИИ-сервисов Google. Разумеется, сюда включены обучение и инференс Gemini и Veo, а также развёртывание моделей рекомендаций (DLRM). Давайте начнём разбирать внутренности TPU с самого нижнего уровня.

    habr.com/ru/companies/ruvds/ar

    #tpu #tensor_processing_units #google #инференс #умножение_матриц

  32. [Перевод] Что же такое TPU

    В последнее время я много работал с TPU и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU. Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA). Общая информация Если вкратце, то TPU — это ASIC компании Google, делающий упор на два фактора: огромную производительность перемножения матриц + энергоэффективность. Их история началась в Google в 2006 году, когда компания впервые начала размышлять о том, что же ей стоит реализовывать: GPU, FPGA или специализированные ASIC. В те времена было лишь несколько областей применения, в которых требовалось специализированное оборудование, поэтому было решено, что потребности компании можно удовлетворить при помощи незадействованных вычислительных ресурсов (compute) CPU её крупных датацентров. Но в 2013 году ситуация изменилась: функция голосового поиска Google начала использовать нейросети, и по расчётам для её реализации потребовалось бы гораздо больше compute. Перенесёмся в настоящее: сегодня TPU лежат в основе большинства ИИ-сервисов Google. Разумеется, сюда включены обучение и инференс Gemini и Veo, а также развёртывание моделей рекомендаций (DLRM). Давайте начнём разбирать внутренности TPU с самого нижнего уровня.

    habr.com/ru/companies/ruvds/ar

    #tpu #tensor_processing_units #google #инференс #умножение_матриц

  33. [Перевод] Что же такое TPU

    В последнее время я много работал с TPU и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU. Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA). Общая информация Если вкратце, то TPU — это ASIC компании Google, делающий упор на два фактора: огромную производительность перемножения матриц + энергоэффективность. Их история началась в Google в 2006 году, когда компания впервые начала размышлять о том, что же ей стоит реализовывать: GPU, FPGA или специализированные ASIC. В те времена было лишь несколько областей применения, в которых требовалось специализированное оборудование, поэтому было решено, что потребности компании можно удовлетворить при помощи незадействованных вычислительных ресурсов (compute) CPU её крупных датацентров. Но в 2013 году ситуация изменилась: функция голосового поиска Google начала использовать нейросети, и по расчётам для её реализации потребовалось бы гораздо больше compute. Перенесёмся в настоящее: сегодня TPU лежат в основе большинства ИИ-сервисов Google. Разумеется, сюда включены обучение и инференс Gemini и Veo, а также развёртывание моделей рекомендаций (DLRM). Давайте начнём разбирать внутренности TPU с самого нижнего уровня.

    habr.com/ru/companies/ruvds/ar

    #tpu #tensor_processing_units #google #инференс #умножение_матриц

  34. [Перевод] Что же такое TPU

    В последнее время я много работал с TPU и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU. Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA). Общая информация Если вкратце, то TPU — это ASIC компании Google, делающий упор на два фактора: огромную производительность перемножения матриц + энергоэффективность. Их история началась в Google в 2006 году, когда компания впервые начала размышлять о том, что же ей стоит реализовывать: GPU, FPGA или специализированные ASIC. В те времена было лишь несколько областей применения, в которых требовалось специализированное оборудование, поэтому было решено, что потребности компании можно удовлетворить при помощи незадействованных вычислительных ресурсов (compute) CPU её крупных датацентров. Но в 2013 году ситуация изменилась: функция голосового поиска Google начала использовать нейросети, и по расчётам для её реализации потребовалось бы гораздо больше compute. Перенесёмся в настоящее: сегодня TPU лежат в основе большинства ИИ-сервисов Google. Разумеется, сюда включены обучение и инференс Gemini и Veo, а также развёртывание моделей рекомендаций (DLRM). Давайте начнём разбирать внутренности TPU с самого нижнего уровня.

    habr.com/ru/companies/ruvds/ar

    #tpu #tensor_processing_units #google #инференс #умножение_матриц

  35. [Перевод] Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

    Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объем VRAM и поддержка длинных контекстов — ваши главные приоритеты. С появлением RTX 5060 Ti 16GB открылась интригующая возможность — собрать систему с двумя такими картами за 950 $ , получив целых 32 ГБ VRAM ! Но как этот дуал покажет себя против проверенной временем б/у RTX 3090 (~900 $) , с её внушительными 24 ГБ и легендарной пропускной способностью? Я провел тесты на реальных моделях (Qwen3 30B/32B), чтобы выяснить, какую видеокарту выбрать для нейросети в 2025 году, если ваша цель — запустить LLM на компьютере с максимальной отдачей, особенно для длинных контекстов.

    habr.com/ru/companies/bothub/a

    #видеокарты_для_нейросетей #rtx_5060_ti_16gb #rtx_3090_24gb #qwen3 #железо #тест_иимоделей #инференс #llamacpp #exllamav3 #tabbyapi

  36. Как готовить Triton: рецепты вашей собственной Inference-платформы

    Привет, Хабр! Меня зовут Антон, я DevOps-инженер в команде Data/ML-продуктов Selectel . Если вам нужно запустить небольшой инференс одной ML-модели, можно взять команду бэкендеров, дать им эту модель, они обернут ее в эндпоинт — и готово. Достаточно короткого скрипта из нескольких строк на Python. Но что если нужно запускать несколько моделей, оптимизировать выполнение, работать с ансамблем моделей, задействовать CPU и GPU одновременно и т. д.? Все эти проблемы решает NVIDIA Triton Inference Server. Правда, он добавляет одну новую: разобраться с ним и его документацией — тот еще квест. В статье посмотрим, насколько сложной задачей может оказаться создание собственного инференса и какие аспекты нужно учитывать. Научимся запускать различные форматы моделей, посмотрим на основные фичи Inference-платформы Selectel, запустим несколько популярных LLM и моделей, а также познакомимся со способами оптимизации конфигурации и проектирования интерфейса для модели.

    habr.com/ru/companies/selectel

    #selectel #машинное_обучение #devops #инференс #mlмодели #инфраструктура

  37. [Перевод] Анализ DeepSeek R1-Zero и R1

    Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций. Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики. Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов. Мы создали в июне премию ARC 2024 , чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.

    habr.com/ru/articles/877942/

    #инференс #deepseek #chatgpt #openai #chain_of_thoughts

  38. [Перевод] Анализ DeepSeek R1-Zero и R1

    Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций. Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики. Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов. Мы создали в июне премию ARC 2024 , чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.

    habr.com/ru/articles/877942/

    #инференс #deepseek #chatgpt #openai #chain_of_thoughts

  39. [Перевод] Анализ DeepSeek R1-Zero и R1

    Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций. Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики. Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов. Мы создали в июне премию ARC 2024 , чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.

    habr.com/ru/articles/877942/

    #инференс #deepseek #chatgpt #openai #chain_of_thoughts

  40. [Перевод] Анализ DeepSeek R1-Zero и R1

    Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций. Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики. Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов. Мы создали в июне премию ARC 2024 , чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.

    habr.com/ru/articles/877942/

    #инференс #deepseek #chatgpt #openai #chain_of_thoughts

  41. Пять элементов Inference-платформы Selectel. Как мы сделали своего Аватара

    Когда дело доходит до инференса ML-моделей, на ум приходит стандартный вариант — задеплоить Helm chart с Triton в Kubernetes. А что если добавить магии, как в «Аватаре»? Привет! Я — Антон, DevOps-инженер в команде Data/ML-продуктов Selectel. В статье я продолжу рассказывать о нашем новом продукте —

    habr.com/ru/companies/selectel

    #selectel #ml #ai #machine_learning #inference #gpu #nvidia #triton #машинное_обучение #mlмодель #инференс

  42. Тензорные компиляторы: что это за «звери» и где они «обитают»

    Компилятор — привычный инструмент для многих разработчиков, но не все сталкивались в работе с тензорным видом. Их частые пользователи — специалисты по машинному обучению и дата-инженеры. В этой статье совершим экскурсию в «зоопарк» тензорных компиляторов, понаблюдаем за их «поведением» и выберем самых функциональных «зверушек». А еще поделимся ссылкой на бесплатный курс о построении и использовании тензорных компиляторов для ускорения вывода глубоких нейронных сетей, который разработан сотрудниками института ИТММ ННГУ им. Н. И. Лобачевского.

    habr.com/ru/companies/yadro/ar

    #тензорные_компиляторы #глубокие_нейросети #тензоры #машинное_обучение #инференс #glow #xla #openvino #apach_tvm

  43. Как мы исследовали энергоэффективность инференса нейросетей на планшете

    Современные гаджеты невозможно представить без AI-функций. Но у них есть цена, которую приходится «платить» конечному потребителю, в том числе более быстрая трата батарейки и перегрев устройства. В итоге производители электроники сталкиваются с дилеммой: фичи нужны, их нужно много, но без значительного ущерба для батарейки. Меня зовут Павел Буровский, я инженер-разработчик ПО искусственного интеллекта. Вместе с Яной Булиной, инженером отдела проектирования новых поколений технологического стека департамента ИИ в YADRO, мы измеряли энергоэффективность выполнения некоторых AI-функций планшета KVADRA. В статье расскажем, как организовали необходимые эксперименты, и покажем много графиков с результатами запусков на CPU, GPU и NPU.

    habr.com/ru/companies/yadro/ar

    #инференс #искусственный_интеллект #ai #функции #бенчмаркинг #планшет

  44. Теоретическая и реальная производительность Intel AMX

    AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids). В начале этого года ко мне в руки наконец попал сервер, с данным типом процессора. Конкретно модель Xeon(R) Gold 5412U - это 24 ядерный процессор с тактовой частотой в 2.1 GHz. При этом 8 приоритетных ядер могут разгонятся до 2.3 GHz, а 1 ядро до 3.9 GHz в Turbo Boost). Кроме того данный процессор поддерживает 8 канальную DDR-5 4400 MT/s. Мне как человеку, достаточно долгое время посвятившему оптимизации алгоритмов компьютерного зрения и запуска нейронный сетей на CPU (библиотеки Simd и Synet ), было интересно: на сколько AMX позволяет реально ускорить вычисления и как извлечь из него максимальную производительность. Далее я постараюсь максимально подробно ответить на данные вопросы. Прежде все я буду касаться вопросов однопоточной производительности (многопоточную рассмотрю позже). Далее много кода на С++...

    habr.com/ru/articles/807033/

    #AMX #SIMD #умножение_матриц #с++ #инференс

  45. Теоретическая и реальная производительность Intel AMX

    AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids). В начале этого года ко мне в руки наконец попал сервер, с данным типом процессора. Конкретно модель Xeon(R) Gold 5412U - это 24 ядерный процессор с тактовой частотой в 2.1 GHz. При этом 8 приоритетных ядер могут разгонятся до 2.3 GHz, а 1 ядро до 3.9 GHz в Turbo Boost). Кроме того данный процессор поддерживает 8 канальную DDR-5 4400 MT/s. Мне как человеку, достаточно долгое время посвятившему оптимизации алгоритмов компьютерного зрения и запуска нейронный сетей на CPU (библиотеки Simd и Synet ), было интересно: на сколько AMX позволяет реально ускорить вычисления и как извлечь из него максимальную производительность. Далее я постараюсь максимально подробно ответить на данные вопросы. Прежде все я буду касаться вопросов однопоточной производительности (многопоточную рассмотрю позже). Далее много кода на С++...

    habr.com/ru/articles/807033/

    #AMX #SIMD #умножение_матриц #с++ #инференс

  46. Теоретическая и реальная производительность Intel AMX

    AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids). В начале этого года ко мне в руки наконец попал сервер, с данным типом процессора. Конкретно модель Xeon(R) Gold 5412U - это 24 ядерный процессор с тактовой частотой в 2.1 GHz. При этом 8 приоритетных ядер могут разгонятся до 2.3 GHz, а 1 ядро до 3.9 GHz в Turbo Boost). Кроме того данный процессор поддерживает 8 канальную DDR-5 4400 MT/s. Мне как человеку, достаточно долгое время посвятившему оптимизации алгоритмов компьютерного зрения и запуска нейронный сетей на CPU (библиотеки Simd и Synet ), было интересно: на сколько AMX позволяет реально ускорить вычисления и как извлечь из него максимальную производительность. Далее я постараюсь максимально подробно ответить на данные вопросы. Прежде все я буду касаться вопросов однопоточной производительности (многопоточную рассмотрю позже). Далее много кода на С++...

    habr.com/ru/articles/807033/

    #AMX #SIMD #умножение_матриц #с++ #инференс

  47. Разворачиваем ML модель с использованием ONNX на Android в километре над землей

    Иногда в жизни программиста возникают интересные задачи. Например, как перенести полученную ML модель, созданную в Python, на Android смартфон. Потому что этот самый смартфон пристегнут к параплану, висящему в километре над землей, а модель должна помогать пилоту лучше искать восходящие потоки. Интернета в полете при этом обычно нет, так что вариант с доступом к удаленному Python-серверу по API отпадает. Ноутбук с запущенным Jupyter с собой тоже не возьмешь. На помощь приходит промежуточный формат ONNX, созданный для обмена ML моделями между разными системами. Под катом описание того, как сконвертировать модель в этот формат и как загрузить и использовать ее в Android приложении.

    habr.com/ru/articles/805515/

    #onnx #onnxruntime #инференс #android_development #machine_learning

  48. Реализация нейронной сети для соревнования Digit Recognizer на Kaggle и её прикладное использование. Часть №1

    В данной статье будет рассмотрено одно из решений обучающей задачи на платформе Kaggle по распознаванию рукописных цифр. Будут продемонстрированы несколько трюков, которые могут помочь читателю добиться высоких результатов в данном соревновании. После реализации нейронной сети будет реализовано серверное и веб-приложение, с помощью которых пользователь сможет рисовать цифры и распознавать их с помощью нейронной сети. Статья ориентирована на начинающих специалистов в области машинного обучения и не носит новаторский характер. Списки на используемые источники (в том числе исходный код) будут представлены в конце статьи. Решения не новы, однако с их помощью можно достичь высоких результатов. Например, автору удалось добиться score равному 0.99896, а с помощью читерства - 1.

    habr.com/ru/articles/778546/

    #глубокое_обучение #машинное_обучение #kaggle #digit_recognizer #python #tensorflow #инференс #читерство #глубокие_нейросети #свёрточная_нейросеть