#оптимизация_инференса — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-04 · 07:12 UTC

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

https://habr.com/ru/companies/ru_mts/articles/1029644/

#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса

#оптимизация_инференса #стоимость_llm #инференс_llm #kvcache #llm

Habr @[email protected] · 2026-05-04 · 07:12 UTC

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

https://habr.com/ru/companies/ru_mts/articles/1029644/

#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса

#оптимизация_инференса #стоимость_llm #инференс_llm #kvcache #llm

Habr @[email protected] · 2026-05-04 · 07:12 UTC

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

https://habr.com/ru/companies/ru_mts/articles/1029644/

#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса

#оптимизация_инференса #стоимость_llm #инференс_llm #kvcache #llm

Habr @[email protected] · 2026-05-04 · 07:12 UTC

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

https://habr.com/ru/companies/ru_mts/articles/1029644/

#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса

#llm #kvcache #инференс_llm #стоимость_llm #оптимизация_инференса

Habr @[email protected] · 2025-01-05 · 09:42 UTC

Алгоритмы спекулятивного инференса LLM

За последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как следствие, вычислительной сложности. Кроме того, генерация текста авторегрессионна - токен за токеном по одному, потому ее сложность зависит от размера контекста и количества генерируемых токенов. Но генерация текста не всегда имеет однородную сложность, так же как мы во многом мыслим идеями, а слова произносим “на автомате”. В статье обсудим алгоритмы, позволяющие использовать эту неоднородность для ускорения.

https://habr.com/ru/articles/871704/

#инференс #спекулятивный_декодинг #llm #оптимизация_инференса #алгоритмическая_оптимизация #ml #DL #ML_алгоритмы #DL_инференс

#инференс #спекулятивный_декодинг #llm #оптимизация_инференса #алгоритмическая_оптимизация #ml