#инференс — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-15 · 08:02 UTC

Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMax

Итак, вы внедрили ИИ в свой сервис и решили ехать в продакшен, где у вас много пользователей. Закономерно возникает вопрос — а на чем запустить инференс, чтобы и пользователи были довольны скоростью работы, и бизнес не разорился. Привет! На связи Никита, системный архитектор Читать далее →

https://habr.com/ru/companies/selectel/articles/1035066/

#selectel #инференс #llm #gpu #nvidia #dgx #hgx_b300

#hgx_b300 #dgx #nvidia #gpu #llm #инференс

Habr @[email protected] · 2026-05-11 · 13:12 UTC

NPU в ноутбуках: что меняется для тех, кто закупает корпоративную технику

Привет, Хабр! Меня зовут Артем, я дата-инженер. В работе часто приходится выбирать: гонять вычисления в облаке или делать их ближе к данным, и у каждого варианта свои больные места. Но недавно ИИ-нагрузки начали переезжать с облачных GPU на обычные ноутбуки — Microsoft вписала нейропроцессор в требования к Copilot+ PC, AMD и Intel встраивают NPU прямо в SoC. Мне стало любопытно: что там на самом деле происходит? За маркетинговой шумихой скрывается сдвиг к гибридной архитектуре: тяжёлое остаётся в облаке, массовые задачи разъезжаются по устройствам сотрудников. Это меняет работу тех, кто такой парк закупает и обслуживает — добавляются требования к памяти и поддержке конкретных ИИ-фреймворков, появляется новая задача доставки и обновления моделей на устройствах, а горизонт планирования у ИТ-отделов оказывается короче, чем кажется. Я заинтересовался темой после одного бенчмарка : NPU в ноутбуке AMD Ryzen AI 300 генерировал изображение 70 секунд, а встроенный GPU того же чипа справлялся за 30 — специализированный нейропроцессор проиграл универсальному вдвое на задаче, под которую его затачивали. Через эту аномалию хорошо видно, как устроены три процессора в одном SoC. Разберём: чем NPU отличается от соседей по чипу, почему всё упирается в память, как LLM удаётся уместить на ноутбуке и что из этого реально работает в корпоративной среде уже сейчас.

https://habr.com/ru/companies/ru_mts/articles/1033588/

#NPU #Искусственный_интеллект #LLM #Железо #Процессоры #Ноутбуки #Машинное_обучение #Инференс #Copilot+_PC #Корпоративные_технологии

#корпоративные_технологии #copilot #инференс #машинное_обучение #ноутбуки #процессоры

Habr @[email protected] · 2026-05-10 · 07:12 UTC

Новая архитектура для агентов: как Intel и SambaNova разделили инференс между GPU, RDU и CPU

В апреле 2026-го Intel и ИИ-платформа SambaNova опубликовали совместный blueprint гетерогенного инференса: prefill — на GPU, decode — на SambaNova SN50 RDU, агентские действия — на Intel Xeon 6. Готовое решение обещают во второй половине 2026-го, и оно встает в обычную стойку 30 кВт с воздушным охлаждением, без капитальных переделок машинного зала. Идея такая: как только случился массовый приход агентов, decode перестал быть побочной фазой и становится доминирующей нагрузкой, а монолитная архитектура «GPU на всё» начала просаживаться по экономике. Коротко разберем, как это работает и почему это может стать востребованным.

https://habr.com/ru/companies/ru_mts/articles/1033082/

#Intel #SambaNova #Nvidia #Xeon_6 #RDU #SN50 #GPU #LLM #инференс #ИИинфраструктура

#ииинфраструктура #инференс #llm #gpu #sn50 #rdu

Habr @[email protected] · 2026-05-09 · 15:02 UTC

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

https://habr.com/ru/articles/1033342/

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

#локальный_ии #инференс #llm #nvfp4 #blackwell #gb10

deepseek @[email protected] · 2026-04-29 · 00:35 UTC

В DigitalOcean запустили серверный инференс DeepSeek V3.2, MiniMax-M2.5 и Qwen 3.5 397B с рекордной скоростью 230 токенов в секунду Н...

#В #DigitalOcean #запустили #серверный #инференс #DeepSeek #V3.2, #MiniMax-M2.5 #и #Qwen #3.5

Origin | Interest | Match

#в #digitalocean #запустили #серверный #инференс #deepseek

Habr @[email protected] · 2026-04-23 · 09:22 UTC

vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

Привет, Хабр! Меня зовут Кирилл Нетреба , я Backend-ML-инженер в Авито . В этой статье я разберу, как мы научили платформу отыскивать нужные пользователю объявления, даже если в них нет соответствующего запросу текста . Мы препарируем связку из Qwen2.5-VL, фреймворка vLLM и LoRA-адаптеров, а также заглянем в бэкенд-инфраструктуру, которая переваривает миллионы обновлений в сутки без деградации latency. Это история о том, как в эпоху, когда традиционный полнотекстовый поиск бессилен перед лаконичностью пользователей, ему на помощь приходит машина, обученная на изображениях и языке.

https://habr.com/ru/companies/avito/articles/1024136/

#vllm #loraадаптеры #llm #инференс #мультимодальные_модели

#мультимодальные_модели #инференс #llm #loraадаптеры #vllm

Habr @[email protected] · 2026-04-17 · 18:42 UTC

Compute crunch пришёл: как считать экономику LLM в 2026

Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

https://habr.com/ru/articles/1024850/

#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

#гибридная_архитектура #compliance #gpu #инференс #токенизация #reasoning

Habr @[email protected] · 2026-04-17 · 18:42 UTC

Compute crunch пришёл: как считать экономику LLM в 2026

Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

https://habr.com/ru/articles/1024850/

#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

#гибридная_архитектура #compliance #gpu #инференс #токенизация #reasoning

Habr @[email protected] · 2026-04-17 · 18:42 UTC

Compute crunch пришёл: как считать экономику LLM в 2026

Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

https://habr.com/ru/articles/1024850/

#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

#гибридная_архитектура #compliance #gpu #инференс #токенизация #reasoning

Habr @[email protected] · 2026-04-17 · 18:42 UTC

Compute crunch пришёл: как считать экономику LLM в 2026

Два крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов — стоимость подписки теперь масштабируется с объёмом потребления, а не фиксируется на уровне seat. Тренд последних двух лет («API дешевеет каждый квартал») не отменился, но получил важную оговорку. Цена за токен в прайсах действительно падала: за 2023–2025 годы стоимость миллиона токенов GPT-4-класса снижалась, но в 2026 году ключевой метрикой для бюджета становится не цена за токен, а стоимость решения задачи .

https://habr.com/ru/articles/1024850/

#LLM #TCO #selfhost #API #reasoning #токенизация #инференс #GPU #compliance #гибридная_архитектура

#llm #tco #selfhost #api #reasoning #токенизация

Habr @[email protected] · 2026-04-08 · 09:32 UTC

DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры

Device plugin умеет выделять только целочисленные ресурсы: одну карту, две карты — или одну MIG‑партицию, но не «полкарты» и не «30% памяти». В реальности же нужны доли памяти, учёт топологии, предсказуемые обновления и изоляция, а не пулы лейблов и кастомные шедулеры. Разобрал, почему индустрия устала от костылей, как это проявляется в настоящем AI‑кластере и что именно пытается исправить DRA. Читать, если хотите управлять ресурсами явно, а не тушить пожары по расписанию. Понять, куда двигаться

https://habr.com/ru/companies/flant/articles/1020276/

#gpu #device_plugin #dra #nvidia #mig #volcano #volcano_scheduler #инференс #gpu_operator #llm

#llm #gpu_operator #инференс #volcano_scheduler #volcano #mig

Habr @[email protected] · 2026-03-25 · 20:52 UTC

TurboQuant. Новый алгоритм сжатия от Google

Google Research выпустили TurboQuant - новый алгоритм сжатия данных, который сокращает объём кэш-памяти LLM как минимум в 6 раз и даёт ускорение до 8 раз . При этом заявляется отсутствие потерь в точности, что напрямую влияет на эффективность работы ИИ.

https://habr.com/ru/articles/1015092/

#TurboQuant #Google #google_research #llm #инференс #сжатие_данных

#сжатие_данных #инференс #llm #google_research #google #turboquant

Habr @[email protected] · 2026-03-24 · 07:52 UTC

Конец эпохи вероятностного ИИ: почему гонка за GPU от Nvidia — это архитектурный тупик

Индустрия генеративного искусственного интеллекта больна . Симптомы этой болезни видны невооруженным глазом: шесть пальцев на руках, нарушенная геометрия объектов в движении и рассинхрон звука с артикуляцией (AV-desync). Но вместо того, чтобы лечить причину математикой , техногиганты пытаются заглушить боль грубой силой, заливая проблему деньгами и сжигая мегаватты энергии на кластерах Nvidia H100 . Сегодня мы наблюдаем классическую архитектурную ошибку: попытку решить фундаментальный математический изъян экстенсивным наращиванием "железа". И эта гонка приведет к неизбежному краху текущей бизнес-модели монополистов.

https://habr.com/ru/articles/1014130/

#генеративный_ИИ #инференс #галлюцинации_нейросетей #архитектура_ИИ #оптимизация_вычислений #детерминированные_алгоритмы #ASIC #GPU #Nvidia #WebAssembly

#webassembly #nvidia #gpu #asic #детерминированные_алгоритмы #оптимизация_вычислений

Habr @[email protected] · 2026-03-13 · 08:02 UTC

Линейка HighFreq или как выжать из облака максимум для инференса, ML и других высоких нагрузок

«Больше» — не всегда значит «лучше». К пользовательским приложениям в облаках это замечание относится в полной мере. Производительность любой системы определяется ее самым медленным компонентом — «бутылочным горлышком». Когда проект вырастает до высоких нагрузок, простое «накликивание» дополнительных виртуальных процессоров или оперативной памяти в стандартной конфигурации может не решить корневую проблему. Это все равно, что расширять дорогу перед железнодорожным переездом — новых полос много, но быстрее доехать не получится. Сегодня мы разберем, почему стандартных, универсальных инструментов бывает недостаточно для высокопроизводительных задач. Мы также покажем, как правильно диагностировать узкие места и подбирать сбалансированную конфигурацию — процессор, диски, сеть — под конкретные рабочие нагрузки. Сделаем это на примере реальных сценариев и продуктов. Посмотрим, что могут специализированные решения дать там, где универсальные подходы не справляются. Читать далее →

https://habr.com/ru/companies/selectel/articles/1009450/

#selectel #инфраструктура #ии #ml #инференс #облако

Habr @[email protected] · 2026-02-10 · 17:32 UTC

Ускоряем инференс в Python с ONNX

Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки. Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как! Ускорить инференс

https://habr.com/ru/companies/otus/articles/991542/

#python #ONNX #инференс #ускорение_моделей #бенчмаркинг

#бенчмаркинг #ускорение_моделей #инференс #onnx #python

Habr @[email protected] · 2026-02-10 · 17:32 UTC

Ускоряем инференс в Python с ONNX

Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки. Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как! Ускорить инференс

https://habr.com/ru/companies/otus/articles/991542/

#python #ONNX #инференс #ускорение_моделей #бенчмаркинг

#бенчмаркинг #ускорение_моделей #инференс #onnx #python

Habr @[email protected] · 2026-02-10 · 17:32 UTC

Ускоряем инференс в Python с ONNX

Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки. Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как! Ускорить инференс

https://habr.com/ru/companies/otus/articles/991542/

#python #ONNX #инференс #ускорение_моделей #бенчмаркинг

#бенчмаркинг #ускорение_моделей #инференс #onnx #python

Habr @[email protected] · 2026-02-10 · 17:32 UTC

Ускоряем инференс в Python с ONNX

Привет! Если у вас когда‑либо был опыт деплоя нейросетки, вы знаете, что обучение — это полдела, а вот добиться шустрого инференса — целое искусство. Часто обученная в PyTorch модель дает замечательные метрики, но стоит попытаться запустить её в приложении начинаются всякие проблемки. Одно из решений, которое часто выручает — ONNX и ONNX Runtime. Если эти буквы для вас пока ничего не значат — не беда, сейчас разберёмся что к чему. А если вы уже слышали про ONNX, то, возможно, задавались вопросом: «А реально ли ускорить инференс, заморочившись с этой технологией?» Еще как! Ускорить инференс

https://habr.com/ru/companies/otus/articles/991542/

#python #ONNX #инференс #ускорение_моделей #бенчмаркинг

#python #onnx #инференс #ускорение_моделей #бенчмаркинг

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#настрока_linux_для_llm #как_запустить_llm #обучение_нейросети #запуск_llm #llm_код #инференс_llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#настрока_linux_для_llm #как_запустить_llm #обучение_нейросети #запуск_llm #llm_код #инференс_llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#настрока_linux_для_llm #как_запустить_llm #обучение_нейросети #запуск_llm #llm_код #инференс_llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#сервер_для_llm #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код

Habr @[email protected] · 2026-01-28 · 17:02 UTC

Как я написал TTS-движок на Rust за месяц: путь от Python к production-ready решению

Что будет, если выкинуть Python-обвязку и сделать TTS по-взрослому? Я взял Qwen3-TTS и за месяц собрал RustTTS : компактный бинарник, быстрый старт, стриминг и контролируемый инференс без “venv на 2 ГБ”. Покажу, как устроен пайплайн (text → tokens → audio), где реально узкие места, какие оптимизации дают эффект, и почему RTF на CPU может быть конкурентным, если не стрелять себе в ногу архитектурой.

https://habr.com/ru/articles/990328/

#rust #tts #texttospeech #синтез_речи #speech_synthesis #inference #инференс #realtime #стриминг #low_latency

#low_latency #стриминг #realtime #инференс #inference #speech_synthesis

Habr @[email protected] · 2025-12-13 · 16:42 UTC

Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

https://habr.com/ru/articles/976382/

#ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

#inference #mobile #искусственный_интеллект #ии #распределенные_сети #edge

Habr @[email protected] · 2025-12-13 · 16:42 UTC

Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

https://habr.com/ru/articles/976382/

#ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

#inference #mobile #искусственный_интеллект #ии #распределенные_сети #edge

Habr @[email protected] · 2025-12-13 · 16:42 UTC

Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

https://habr.com/ru/articles/976382/

#ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

#inference #mobile #искусственный_интеллект #ии #распределенные_сети #edge

Habr @[email protected] · 2025-12-13 · 16:42 UTC

Распределенные сети для инференса ИИ: как это работает, какие технологии есть и когда мы перестанем кормить NVIDIA

Представьте мир, где ваш смартфон не просто запускает нейросеть — он становится частью глобального вычислительного мозга. Мир, где беспилотный автомобиль обрабатывает данные не в далёком облаке, а в динамической сети соседних машин и дорожной инфраструктуры. Мир, где умный завод принимает решения не централизованно, а через коллективный разум тысяч датчиков и роботов, обменивающихся нейронными активациями в реальном времени. Это не сценарий далёкого будущего — это насущная потребность сегодняшнего дня. Пока гиганты ИИ соревнуются в создании всё более крупных моделей с триллионами параметров, реальный мир сталкивается с жестоким парадоксом: самые продвинутые системы искусственного интеллекта оказываются беспомощными там, где они нужнее всего — на периферии, в условиях ограниченной связи, скудной энергии и жёстких требований к задержкам.

https://habr.com/ru/articles/976382/

#ai #peer2peer #инференс #edge #распределенные_сети #ии #искусственный_интеллект #mobile #inference

#ai #peer2peer #инференс #edge #распределенные_сети #ии

Habr @[email protected] · 2025-09-25 · 06:52 UTC

Что нового в NVIDIA Rubin CPX — платформе для AI, представленной на AI Infra Summit

9 сентября NVIDIA представила новый графический процессор Rubin CPX, разработанный специально для задач искусственного интеллекта с длинным контекстом. Этот монолитный чип оснащен 128 ГБ памяти GDDR7, способен обрабатывать миллионы токенов информации и оптимизирован для фазы предварительной обработки данных в задачах инференса. В деталях рассказываем, какую мощность выдает новинка и для какой работы подходит.

https://habr.com/ru/companies/mclouds/articles/950138/

#графические_процессоры #gpu #nvidia #rubin #искусственный_интеллект #gddr7 #инференс #программный_код #обработка_данных

#графические_процессоры #gpu #nvidia #rubin #искусственный_интеллект #gddr7

Habr @[email protected] · 2025-09-11 · 11:42 UTC

[Перевод] Архитектура LPU и будущее AI без задержек

Команда AI for Devs подготовила перевод статьи о том, как Groq пытается устранить главное «бутылочное горлышко» современного ИИ — задержку. Их специализированный процессор LPU обещает скорость в реальном времени и открывает путь к новым приложениям: от финансовых систем до Coding AI-ботов. Но за пределами маркетинга остаются вопросы: что с большими контекстами, какова конкуренция с Cerebras и GPU, и выдержит ли бизнес-модель такие вызовы?

https://habr.com/ru/articles/945894/

#Groq #LPU #инференс #задержка #ai #gpu

#groq #lpu #инференс #задержка #ai #gpu

Habr @[email protected] · 2025-08-11 · 16:12 UTC

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций

В процессе разработки RAG-системы для обработки видеоконтента передо мной встала задача генерации качественных описаний для большого объема видео-клипов с использованием мультимодальных языковых моделей. Клипы имели продолжительность около 10 секунд, в отдельных экспериментах мы тестировали материал длиной в несколько десятков секунд. Финальные описания составляли от 300 до 2000 токенов и после генерации разбивались на чанки для индексации в векторной базе данных.

При тестировании различных подходов обнаружились значительные различия в скорости и качестве обработки. Компактные модели, работающие с отдельными кадрами изображений (Phi, DeepSeekVL2, Moondream), демонстрировали существенно более высокую скорость по сравнению с моделями полноценной обработки видео, однако качество генерируемых описаний оставляло желать лучшего. Типичный workflow включал конкатенацию описаний отдельных кадров, при этом в DeepSeekVL2 дополнительно использовался system prompt для более интеллигентного объединения результатов анализа кадров.

Модели для обработки изображений стабильно укладывались в временные рамки 3-5 секунд на клип, что значительно быстрее требуемого лимита. Полноценные видео-модели, получающие на вход целые видеоклипы, изначально генерировали описания за 30 секунд на vanilla PyTorch. Применение VLLM ускорило процесс до 12-15 секунд, а SGLang позволил достичь целевых 8-10 секунд на клип. Эти временные рамки позволили настроить обработку на кластере из 20 RTX 4090 и сгенерировать около миллиона описаний за месяц для production-системы.

Благодаря применению различных техник оптимизации инференса удалось не только достичь поставленных временных целей, но и существенно превзойти их, завершив генерацию необходимого объема описаний за две недели вместо месяца. Система успешно развернута в продакшене и демонстрирует стабильную производительность.

Данная статья представляет систематизированный анализ практического опыта оптимизации инференса мультимодальных LLM, полученного в ходе решения реальной production-задачи. Особое внимание уделяется сравнению эффективности различных подходов к ускорению, включая современные специализированные фреймворки VLLM и SGLang, а также аппаратные оптимизации на базе TensorRT.

https://habr.com/ru/articles/936110/

#оптимизация #инференс #анализ #подходы #модель #видео

#видео #модель #подходы #анализ #инференс #оптимизация

Habr @[email protected] · 2025-06-25 · 14:52 UTC

[Перевод] Что же такое TPU

В последнее время я много работал с TPU и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU. Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA). Общая информация Если вкратце, то TPU — это ASIC компании Google, делающий упор на два фактора: огромную производительность перемножения матриц + энергоэффективность. Их история началась в Google в 2006 году, когда компания впервые начала размышлять о том, что же ей стоит реализовывать: GPU, FPGA или специализированные ASIC. В те времена было лишь несколько областей применения, в которых требовалось специализированное оборудование, поэтому было решено, что потребности компании можно удовлетворить при помощи незадействованных вычислительных ресурсов (compute) CPU её крупных датацентров. Но в 2013 году ситуация изменилась: функция голосового поиска Google начала использовать нейросети, и по расчётам для её реализации потребовалось бы гораздо больше compute. Перенесёмся в настоящее: сегодня TPU лежат в основе большинства ИИ-сервисов Google. Разумеется, сюда включены обучение и инференс Gemini и Veo, а также развёртывание моделей рекомендаций (DLRM). Давайте начнём разбирать внутренности TPU с самого нижнего уровня.

https://habr.com/ru/companies/ruvds/articles/921024/

#tpu #tensor_processing_units #google #инференс #умножение_матриц

Habr @[email protected] · 2025-06-25 · 14:52 UTC

[Перевод] Что же такое TPU

В последнее время я много работал с TPU и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU. Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA). Общая информация Если вкратце, то TPU — это ASIC компании Google, делающий упор на два фактора: огромную производительность перемножения матриц + энергоэффективность. Их история началась в Google в 2006 году, когда компания впервые начала размышлять о том, что же ей стоит реализовывать: GPU, FPGA или специализированные ASIC. В те времена было лишь несколько областей применения, в которых требовалось специализированное оборудование, поэтому было решено, что потребности компании можно удовлетворить при помощи незадействованных вычислительных ресурсов (compute) CPU её крупных датацентров. Но в 2013 году ситуация изменилась: функция голосового поиска Google начала использовать нейросети, и по расчётам для её реализации потребовалось бы гораздо больше compute. Перенесёмся в настоящее: сегодня TPU лежат в основе большинства ИИ-сервисов Google. Разумеется, сюда включены обучение и инференс Gemini и Veo, а также развёртывание моделей рекомендаций (DLRM). Давайте начнём разбирать внутренности TPU с самого нижнего уровня.

https://habr.com/ru/companies/ruvds/articles/921024/

#tpu #tensor_processing_units #google #инференс #умножение_матриц

Habr @[email protected] · 2025-06-25 · 14:52 UTC

[Перевод] Что же такое TPU

В последнее время я много работал с TPU и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU. Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA). Общая информация Если вкратце, то TPU — это ASIC компании Google, делающий упор на два фактора: огромную производительность перемножения матриц + энергоэффективность. Их история началась в Google в 2006 году, когда компания впервые начала размышлять о том, что же ей стоит реализовывать: GPU, FPGA или специализированные ASIC. В те времена было лишь несколько областей применения, в которых требовалось специализированное оборудование, поэтому было решено, что потребности компании можно удовлетворить при помощи незадействованных вычислительных ресурсов (compute) CPU её крупных датацентров. Но в 2013 году ситуация изменилась: функция голосового поиска Google начала использовать нейросети, и по расчётам для её реализации потребовалось бы гораздо больше compute. Перенесёмся в настоящее: сегодня TPU лежат в основе большинства ИИ-сервисов Google. Разумеется, сюда включены обучение и инференс Gemini и Veo, а также развёртывание моделей рекомендаций (DLRM). Давайте начнём разбирать внутренности TPU с самого нижнего уровня.

https://habr.com/ru/companies/ruvds/articles/921024/

#tpu #tensor_processing_units #google #инференс #умножение_матриц

Habr @[email protected] · 2025-06-25 · 14:52 UTC

[Перевод] Что же такое TPU

В последнее время я много работал с TPU и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU. Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA). Общая информация Если вкратце, то TPU — это ASIC компании Google, делающий упор на два фактора: огромную производительность перемножения матриц + энергоэффективность. Их история началась в Google в 2006 году, когда компания впервые начала размышлять о том, что же ей стоит реализовывать: GPU, FPGA или специализированные ASIC. В те времена было лишь несколько областей применения, в которых требовалось специализированное оборудование, поэтому было решено, что потребности компании можно удовлетворить при помощи незадействованных вычислительных ресурсов (compute) CPU её крупных датацентров. Но в 2013 году ситуация изменилась: функция голосового поиска Google начала использовать нейросети, и по расчётам для её реализации потребовалось бы гораздо больше compute. Перенесёмся в настоящее: сегодня TPU лежат в основе большинства ИИ-сервисов Google. Разумеется, сюда включены обучение и инференс Gemini и Veo, а также развёртывание моделей рекомендаций (DLRM). Давайте начнём разбирать внутренности TPU с самого нижнего уровня.

https://habr.com/ru/companies/ruvds/articles/921024/

#tpu #tensor_processing_units #google #инференс #умножение_матриц

#умножение_матриц #инференс #google #tensor_processing_units #tpu

Habr @[email protected] · 2025-06-18 · 09:12 UTC

[Перевод] Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объем VRAM и поддержка длинных контекстов — ваши главные приоритеты. С появлением RTX 5060 Ti 16GB открылась интригующая возможность — собрать систему с двумя такими картами за 950 $ , получив целых 32 ГБ VRAM ! Но как этот дуал покажет себя против проверенной временем б/у RTX 3090 (~900 $) , с её внушительными 24 ГБ и легендарной пропускной способностью? Я провел тесты на реальных моделях (Qwen3 30B/32B), чтобы выяснить, какую видеокарту выбрать для нейросети в 2025 году, если ваша цель — запустить LLM на компьютере с максимальной отдачей, особенно для длинных контекстов.

https://habr.com/ru/companies/bothub/articles/919394/

#видеокарты_для_нейросетей #rtx_5060_ti_16gb #rtx_3090_24gb #qwen3 #железо #тест_иимоделей #инференс #llamacpp #exllamav3 #tabbyapi

#видеокарты_для_нейросетей #rtx_5060_ti_16gb #rtx_3090_24gb #qwen3 #железо #тест_иимоделей

Habr @[email protected] · 2025-04-17 · 14:12 UTC

Как готовить Triton: рецепты вашей собственной Inference-платформы

Привет, Хабр! Меня зовут Антон, я DevOps-инженер в команде Data/ML-продуктов Selectel . Если вам нужно запустить небольшой инференс одной ML-модели, можно взять команду бэкендеров, дать им эту модель, они обернут ее в эндпоинт — и готово. Достаточно короткого скрипта из нескольких строк на Python. Но что если нужно запускать несколько моделей, оптимизировать выполнение, работать с ансамблем моделей, задействовать CPU и GPU одновременно и т. д.? Все эти проблемы решает NVIDIA Triton Inference Server. Правда, он добавляет одну новую: разобраться с ним и его документацией — тот еще квест. В статье посмотрим, насколько сложной задачей может оказаться создание собственного инференса и какие аспекты нужно учитывать. Научимся запускать различные форматы моделей, посмотрим на основные фичи Inference-платформы Selectel, запустим несколько популярных LLM и моделей, а также познакомимся со способами оптимизации конфигурации и проектирования интерфейса для модели.

https://habr.com/ru/companies/selectel/articles/901358/

#selectel #машинное_обучение #devops #инференс #mlмодели #инфраструктура

Habr @[email protected] · 2025-01-30 · 10:32 UTC

[Перевод] Анализ DeepSeek R1-Zero и R1

Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций. Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики. Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов. Мы создали в июне премию ARC 2024 , чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.

https://habr.com/ru/articles/877942/

#инференс #deepseek #chatgpt #openai #chain_of_thoughts

#chain_of_thoughts #openai #chatgpt #deepseek #инференс

Habr @[email protected] · 2025-01-30 · 10:32 UTC

[Перевод] Анализ DeepSeek R1-Zero и R1

Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций. Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики. Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов. Мы создали в июне премию ARC 2024 , чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.

https://habr.com/ru/articles/877942/

#инференс #deepseek #chatgpt #openai #chain_of_thoughts

#chain_of_thoughts #openai #chatgpt #deepseek #инференс

Habr @[email protected] · 2025-01-30 · 10:32 UTC

[Перевод] Анализ DeepSeek R1-Zero и R1

Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций. Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики. Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов. Мы создали в июне премию ARC 2024 , чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.

https://habr.com/ru/articles/877942/

#инференс #deepseek #chatgpt #openai #chain_of_thoughts

#chain_of_thoughts #openai #chatgpt #deepseek #инференс

Habr @[email protected] · 2025-01-30 · 10:32 UTC

[Перевод] Анализ DeepSeek R1-Zero и R1

Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций. Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики. Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов. Мы создали в июне премию ARC 2024 , чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.

https://habr.com/ru/articles/877942/

#инференс #deepseek #chatgpt #openai #chain_of_thoughts

Habr @[email protected] · 2024-12-27 · 09:02 UTC

Пять элементов Inference-платформы Selectel. Как мы сделали своего Аватара

Когда дело доходит до инференса ML-моделей, на ум приходит стандартный вариант — задеплоить Helm chart с Triton в Kubernetes. А что если добавить магии, как в «Аватаре»? Привет! Я — Антон, DevOps-инженер в команде Data/ML-продуктов Selectel. В статье я продолжу рассказывать о нашем новом продукте —

https://habr.com/ru/companies/selectel/articles/867972/

#selectel #ml #ai #machine_learning #inference #gpu #nvidia #triton #машинное_обучение #mlмодель #инференс

#selectel #ml #ai #machine_learning #inference #gpu

Habr @[email protected] · 2024-12-25 · 07:32 UTC

Тензорные компиляторы: что это за «звери» и где они «обитают»

Компилятор — привычный инструмент для многих разработчиков, но не все сталкивались в работе с тензорным видом. Их частые пользователи — специалисты по машинному обучению и дата-инженеры. В этой статье совершим экскурсию в «зоопарк» тензорных компиляторов, понаблюдаем за их «поведением» и выберем самых функциональных «зверушек». А еще поделимся ссылкой на бесплатный курс о построении и использовании тензорных компиляторов для ускорения вывода глубоких нейронных сетей, который разработан сотрудниками института ИТММ ННГУ им. Н. И. Лобачевского.

https://habr.com/ru/companies/yadro/articles/869594/

#тензорные_компиляторы #глубокие_нейросети #тензоры #машинное_обучение #инференс #glow #xla #openvino #apach_tvm

#тензорные_компиляторы #глубокие_нейросети #тензоры #машинное_обучение #инференс #glow

Habr @[email protected] · 2024-11-14 · 11:12 UTC

Как мы исследовали энергоэффективность инференса нейросетей на планшете

Современные гаджеты невозможно представить без AI-функций. Но у них есть цена, которую приходится «платить» конечному потребителю, в том числе более быстрая трата батарейки и перегрев устройства. В итоге производители электроники сталкиваются с дилеммой: фичи нужны, их нужно много, но без значительного ущерба для батарейки. Меня зовут Павел Буровский, я инженер-разработчик ПО искусственного интеллекта. Вместе с Яной Булиной, инженером отдела проектирования новых поколений технологического стека департамента ИИ в YADRO, мы измеряли энергоэффективность выполнения некоторых AI-функций планшета KVADRA. В статье расскажем, как организовали необходимые эксперименты, и покажем много графиков с результатами запусков на CPU, GPU и NPU.

https://habr.com/ru/companies/yadro/articles/855702/

#инференс #искусственный_интеллект #ai #функции #бенчмаркинг #планшет

#планшет #бенчмаркинг #функции #ai #искусственный_интеллект #инференс

Habr @[email protected] · 2024-04-11 · 12:32 UTC

Теоретическая и реальная производительность Intel AMX

AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids). В начале этого года ко мне в руки наконец попал сервер, с данным типом процессора. Конкретно модель Xeon(R) Gold 5412U - это 24 ядерный процессор с тактовой частотой в 2.1 GHz. При этом 8 приоритетных ядер могут разгонятся до 2.3 GHz, а 1 ядро до 3.9 GHz в Turbo Boost). Кроме того данный процессор поддерживает 8 канальную DDR-5 4400 MT/s. Мне как человеку, достаточно долгое время посвятившему оптимизации алгоритмов компьютерного зрения и запуска нейронный сетей на CPU (библиотеки Simd и Synet ), было интересно: на сколько AMX позволяет реально ускорить вычисления и как извлечь из него максимальную производительность. Далее я постараюсь максимально подробно ответить на данные вопросы. Прежде все я буду касаться вопросов однопоточной производительности (многопоточную рассмотрю позже). Далее много кода на С++...

https://habr.com/ru/articles/807033/

#AMX #SIMD #умножение_матриц #с++ #инференс

#инференс #с #умножение_матриц #simd #amx

Habr @[email protected] · 2024-04-11 · 12:32 UTC

Теоретическая и реальная производительность Intel AMX

AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids). В начале этого года ко мне в руки наконец попал сервер, с данным типом процессора. Конкретно модель Xeon(R) Gold 5412U - это 24 ядерный процессор с тактовой частотой в 2.1 GHz. При этом 8 приоритетных ядер могут разгонятся до 2.3 GHz, а 1 ядро до 3.9 GHz в Turbo Boost). Кроме того данный процессор поддерживает 8 канальную DDR-5 4400 MT/s. Мне как человеку, достаточно долгое время посвятившему оптимизации алгоритмов компьютерного зрения и запуска нейронный сетей на CPU (библиотеки Simd и Synet ), было интересно: на сколько AMX позволяет реально ускорить вычисления и как извлечь из него максимальную производительность. Далее я постараюсь максимально подробно ответить на данные вопросы. Прежде все я буду касаться вопросов однопоточной производительности (многопоточную рассмотрю позже). Далее много кода на С++...

https://habr.com/ru/articles/807033/

#AMX #SIMD #умножение_матриц #с++ #инференс

#инференс #с #умножение_матриц #simd #amx

Habr @[email protected] · 2024-04-11 · 12:32 UTC

Теоретическая и реальная производительность Intel AMX

AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids). В начале этого года ко мне в руки наконец попал сервер, с данным типом процессора. Конкретно модель Xeon(R) Gold 5412U - это 24 ядерный процессор с тактовой частотой в 2.1 GHz. При этом 8 приоритетных ядер могут разгонятся до 2.3 GHz, а 1 ядро до 3.9 GHz в Turbo Boost). Кроме того данный процессор поддерживает 8 канальную DDR-5 4400 MT/s. Мне как человеку, достаточно долгое время посвятившему оптимизации алгоритмов компьютерного зрения и запуска нейронный сетей на CPU (библиотеки Simd и Synet ), было интересно: на сколько AMX позволяет реально ускорить вычисления и как извлечь из него максимальную производительность. Далее я постараюсь максимально подробно ответить на данные вопросы. Прежде все я буду касаться вопросов однопоточной производительности (многопоточную рассмотрю позже). Далее много кода на С++...

https://habr.com/ru/articles/807033/

#AMX #SIMD #умножение_матриц #с++ #инференс

#инференс #с #умножение_матриц #simd #amx

Habr @[email protected] · 2024-04-09 · 08:12 UTC

Разворачиваем ML модель с использованием ONNX на Android в километре над землей

Иногда в жизни программиста возникают интересные задачи. Например, как перенести полученную ML модель, созданную в Python, на Android смартфон. Потому что этот самый смартфон пристегнут к параплану, висящему в километре над землей, а модель должна помогать пилоту лучше искать восходящие потоки. Интернета в полете при этом обычно нет, так что вариант с доступом к удаленному Python-серверу по API отпадает. Ноутбук с запущенным Jupyter с собой тоже не возьмешь. На помощь приходит промежуточный формат ONNX, созданный для обмена ML моделями между разными системами. Под катом описание того, как сконвертировать модель в этот формат и как загрузить и использовать ее в Android приложении.

https://habr.com/ru/articles/805515/

#onnx #onnxruntime #инференс #android_development #machine_learning

#machine_learning #android_development #инференс #onnxruntime #onnx

Habr @[email protected] · 2023-12-05 · 08:27 UTC

Реализация нейронной сети для соревнования Digit Recognizer на Kaggle и её прикладное использование. Часть №1

В данной статье будет рассмотрено одно из решений обучающей задачи на платформе Kaggle по распознаванию рукописных цифр. Будут продемонстрированы несколько трюков, которые могут помочь читателю добиться высоких результатов в данном соревновании. После реализации нейронной сети будет реализовано серверное и веб-приложение, с помощью которых пользователь сможет рисовать цифры и распознавать их с помощью нейронной сети. Статья ориентирована на начинающих специалистов в области машинного обучения и не носит новаторский характер. Списки на используемые источники (в том числе исходный код) будут представлены в конце статьи. Решения не новы, однако с их помощью можно достичь высоких результатов. Например, автору удалось добиться score равному 0.99896, а с помощью читерства - 1.

https://habr.com/ru/articles/778546/

#глубокое_обучение #машинное_обучение #kaggle #digit_recognizer #python #tensorflow #инференс #читерство #глубокие_нейросети #свёрточная_нейросеть

#свёрточная_нейросеть #глубокие_нейросети #читерство #инференс #tensorflow #python