#инференс_llm — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-04 · 07:12 UTC

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

https://habr.com/ru/companies/ru_mts/articles/1029644/

#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса

#оптимизация_инференса #стоимость_llm #инференс_llm #kvcache #llm

Habr @[email protected] · 2026-05-04 · 07:12 UTC

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

https://habr.com/ru/companies/ru_mts/articles/1029644/

#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса

#оптимизация_инференса #стоимость_llm #инференс_llm #kvcache #llm

Habr @[email protected] · 2026-05-04 · 07:12 UTC

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

https://habr.com/ru/companies/ru_mts/articles/1029644/

#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса

#оптимизация_инференса #стоимость_llm #инференс_llm #kvcache #llm

Habr @[email protected] · 2026-05-04 · 07:12 UTC

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

https://habr.com/ru/companies/ru_mts/articles/1029644/

#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса

#llm #kvcache #инференс_llm #стоимость_llm #оптимизация_инференса

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#настрока_linux_для_llm #как_запустить_llm #обучение_нейросети #запуск_llm #llm_код #инференс_llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#настрока_linux_для_llm #как_запустить_llm #обучение_нейросети #запуск_llm #llm_код #инференс_llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#настрока_linux_для_llm #как_запустить_llm #обучение_нейросети #запуск_llm #llm_код #инференс_llm

Habr @[email protected] · 2026-02-04 · 18:42 UTC

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next

https://habr.com/ru/articles/992854/

#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm

#сервер_для_llm #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код

Habr @[email protected] · 2026-02-02 · 10:32 UTC

̶К̶у̶п̶а̶н̶и̶е̶ тестирование «красного» ̶к̶о̶н̶я̶ представителя GPU от АМД с приставкой ИИ — RADEON AI PRO R9700

Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней. Мы проверили Radeon AI PRO R9700 с 32 Гб памяти на реальных задачах: LLM, генерация графики и видео, 3D-рендеринг, и сравнили с NVIDIA.

https://habr.com/ru/companies/hostkey/articles/991780/

#hostkey #Radeon_AI_PRO_R9700 #ROCm #инференс_LLM #генеративный_ИИ #видеокарта #NVIDIA_RTX #Ollama #RDNA_4 #GDDR6

#gddr6 #rdna_4 #ollama #nvidia_rtx #видеокарта #генеративный_ии

Habr @[email protected] · 2026-02-02 · 10:32 UTC

̶К̶у̶п̶а̶н̶и̶е̶ тестирование «красного» ̶к̶о̶н̶я̶ представителя GPU от АМД с приставкой ИИ — RADEON AI PRO R9700

Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней. Мы проверили Radeon AI PRO R9700 с 32 Гб памяти на реальных задачах: LLM, генерация графики и видео, 3D-рендеринг, и сравнили с NVIDIA.

https://habr.com/ru/companies/hostkey/articles/991780/

#hostkey #Radeon_AI_PRO_R9700 #ROCm #инференс_LLM #генеративный_ИИ #видеокарта #NVIDIA_RTX #Ollama #RDNA_4 #GDDR6

#gddr6 #rdna_4 #ollama #nvidia_rtx #видеокарта #генеративный_ии

Habr @[email protected] · 2026-02-02 · 10:32 UTC

̶К̶у̶п̶а̶н̶и̶е̶ тестирование «красного» ̶к̶о̶н̶я̶ представителя GPU от АМД с приставкой ИИ — RADEON AI PRO R9700

Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней. Мы проверили Radeon AI PRO R9700 с 32 Гб памяти на реальных задачах: LLM, генерация графики и видео, 3D-рендеринг, и сравнили с NVIDIA.

https://habr.com/ru/companies/hostkey/articles/991780/

#hostkey #Radeon_AI_PRO_R9700 #ROCm #инференс_LLM #генеративный_ИИ #видеокарта #NVIDIA_RTX #Ollama #RDNA_4 #GDDR6

#gddr6 #rdna_4 #ollama #nvidia_rtx #видеокарта #генеративный_ии

Habr @[email protected] · 2026-02-02 · 10:32 UTC

̶К̶у̶п̶а̶н̶и̶е̶ тестирование «красного» ̶к̶о̶н̶я̶ представителя GPU от АМД с приставкой ИИ — RADEON AI PRO R9700

Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней. Мы проверили Radeon AI PRO R9700 с 32 Гб памяти на реальных задачах: LLM, генерация графики и видео, 3D-рендеринг, и сравнили с NVIDIA.

https://habr.com/ru/companies/hostkey/articles/991780/

#hostkey #Radeon_AI_PRO_R9700 #ROCm #инференс_LLM #генеративный_ИИ #видеокарта #NVIDIA_RTX #Ollama #RDNA_4 #GDDR6

#hostkey #radeon_ai_pro_r9700 #rocm #инференс_llm #генеративный_ии #видеокарта

Habr @[email protected] · 2026-01-29 · 16:02 UTC

Прогноз AI на 2026 год: давление инфраструктуры и рост агентных систем

В конце прошлого года обсудили с Head of R&D red_mad_robot Валерой Ковальским , как будет развиваться AI в 2026 году. В статье делимся его прогнозами и разбираем, какие изменения уже формируют индустрию и какие станут критичными в ближайшие годы — с точки зрения инженерии, масштабирования и реального применения в продуктах. Дополнительный контекст и комментарии дал Саша Абрамов — AI-визионер, руководитель AI/ML-команд и автор Dealer.AI.

https://habr.com/ru/companies/redmadrobot/articles/990698/

#ai #llm #llmмодели #технологии #инференс_llm #агенты_ии #контекстинжиниринг #opensourse

#opensourse #контекстинжиниринг #агенты_ии #инференс_llm #технологии #llmмодели

Habr @[email protected] · 2026-01-12 · 11:42 UTC

[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено

https://habr.com/ru/companies/otus/articles/984434/

#prompt_caching #префилл #декодинг #инференс_LLM #vLLM #PagedAttention #prefix_caching #фрагментация_памяти #планировщик_инференса

#планировщик_инференса #фрагментация_памяти #prefix_caching #pagedattention #vllm #инференс_llm