#инференс_llm — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #инференс_llm, aggregated by home.social.
-
Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant
При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.
https://habr.com/ru/companies/ru_mts/articles/1029644/
#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса
-
Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant
При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.
https://habr.com/ru/companies/ru_mts/articles/1029644/
#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса
-
Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant
При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.
https://habr.com/ru/companies/ru_mts/articles/1029644/
#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса
-
Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant
При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.
https://habr.com/ru/companies/ru_mts/articles/1029644/
#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса
-
LLM модель qwen3-coder-next быстрый тест на локальном сервере
Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next
https://habr.com/ru/articles/992854/
#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm
-
LLM модель qwen3-coder-next быстрый тест на локальном сервере
Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next
https://habr.com/ru/articles/992854/
#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm
-
LLM модель qwen3-coder-next быстрый тест на локальном сервере
Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next
https://habr.com/ru/articles/992854/
#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm
-
LLM модель qwen3-coder-next быстрый тест на локальном сервере
Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.15.5-rc2 sh Представлено 2 версии qwen3-coder-next
https://habr.com/ru/articles/992854/
#сервер_для_LLM #инференс_ллм #инференс #инференс_моделей #инференс_llm #llm_код #запуск_llm #обучение_нейросети #как_запустить_llm #настрока_linux_для_llm
-
̶К̶у̶п̶а̶н̶и̶е̶ тестирование «красного» ̶к̶о̶н̶я̶ представителя GPU от АМД с приставкой ИИ — RADEON AI PRO R9700
Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней. Мы проверили Radeon AI PRO R9700 с 32 Гб памяти на реальных задачах: LLM, генерация графики и видео, 3D-рендеринг, и сравнили с NVIDIA.
https://habr.com/ru/companies/hostkey/articles/991780/
#hostkey #Radeon_AI_PRO_R9700 #ROCm #инференс_LLM #генеративный_ИИ #видеокарта #NVIDIA_RTX #Ollama #RDNA_4 #GDDR6
-
̶К̶у̶п̶а̶н̶и̶е̶ тестирование «красного» ̶к̶о̶н̶я̶ представителя GPU от АМД с приставкой ИИ — RADEON AI PRO R9700
Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней. Мы проверили Radeon AI PRO R9700 с 32 Гб памяти на реальных задачах: LLM, генерация графики и видео, 3D-рендеринг, и сравнили с NVIDIA.
https://habr.com/ru/companies/hostkey/articles/991780/
#hostkey #Radeon_AI_PRO_R9700 #ROCm #инференс_LLM #генеративный_ИИ #видеокарта #NVIDIA_RTX #Ollama #RDNA_4 #GDDR6
-
̶К̶у̶п̶а̶н̶и̶е̶ тестирование «красного» ̶к̶о̶н̶я̶ представителя GPU от АМД с приставкой ИИ — RADEON AI PRO R9700
Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней. Мы проверили Radeon AI PRO R9700 с 32 Гб памяти на реальных задачах: LLM, генерация графики и видео, 3D-рендеринг, и сравнили с NVIDIA.
https://habr.com/ru/companies/hostkey/articles/991780/
#hostkey #Radeon_AI_PRO_R9700 #ROCm #инференс_LLM #генеративный_ИИ #видеокарта #NVIDIA_RTX #Ollama #RDNA_4 #GDDR6
-
̶К̶у̶п̶а̶н̶и̶е̶ тестирование «красного» ̶к̶о̶н̶я̶ представителя GPU от АМД с приставкой ИИ — RADEON AI PRO R9700
Тестировать друг за другом видеокарты от NVIDIA надоедает, благо разница в последнем поколении только в мощностях процессоров семейства Blackwell, объеме памяти и ширине шины. А вот посмотреть, что предлагают конкуренты, а тем более громко называя это «ИИ», уже интересней. Мы проверили Radeon AI PRO R9700 с 32 Гб памяти на реальных задачах: LLM, генерация графики и видео, 3D-рендеринг, и сравнили с NVIDIA.
https://habr.com/ru/companies/hostkey/articles/991780/
#hostkey #Radeon_AI_PRO_R9700 #ROCm #инференс_LLM #генеративный_ИИ #видеокарта #NVIDIA_RTX #Ollama #RDNA_4 #GDDR6
-
Прогноз AI на 2026 год: давление инфраструктуры и рост агентных систем
В конце прошлого года обсудили с Head of R&D red_mad_robot Валерой Ковальским , как будет развиваться AI в 2026 году. В статье делимся его прогнозами и разбираем, какие изменения уже формируют индустрию и какие станут критичными в ближайшие годы — с точки зрения инженерии, масштабирования и реального применения в продуктах. Дополнительный контекст и комментарии дал Саша Абрамов — AI-визионер, руководитель AI/ML-команд и автор Dealer.AI.
https://habr.com/ru/companies/redmadrobot/articles/990698/
#ai #llm #llmмодели #технологии #инференс_llm #агенты_ии #контекстинжиниринг #opensourse
-
[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы
Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено
https://habr.com/ru/companies/otus/articles/984434/
#prompt_caching #префилл #декодинг #инференс_LLM #vLLM #PagedAttention #prefix_caching #фрагментация_памяти #планировщик_инференса