#prefix_cache — Public Fediverse posts on home.social

Habr @[email protected] · 2026-03-30 · 08:02 UTC

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

https://habr.com/ru/companies/bitrix/articles/1016734/

#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents

#agents #contextengineering #promptengineering #selfhosted #maas #anthropic

Habr @[email protected] · 2026-03-30 · 08:02 UTC

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

https://habr.com/ru/companies/bitrix/articles/1016732/

#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents

#agents #contextengineering #promptengineering #selfhosted #maas #anthropic

Habr @[email protected] · 2026-03-30 · 08:02 UTC

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

https://habr.com/ru/companies/bitrix/articles/1016734/

#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents

#agents #contextengineering #promptengineering #selfhosted #maas #anthropic

Habr @[email protected] · 2026-03-30 · 08:02 UTC

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

https://habr.com/ru/companies/bitrix/articles/1016732/

#prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #selfhosted #promptengineering #contextengineering #agents

#agents #contextengineering #promptengineering #selfhosted #maas #anthropic