#prompt_caching — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-12 · 08:02 UTC

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

https://habr.com/ru/companies/bitrix/articles/1033822/

#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering

#contextengineering #promptengineering #prompt_caching #ai #aiагенты #токены

Habr @[email protected] · 2026-05-12 · 08:02 UTC

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

https://habr.com/ru/companies/bitrix/articles/1033822/

#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering

#contextengineering #promptengineering #prompt_caching #ai #aiагенты #токены

Habr @[email protected] · 2026-05-12 · 08:02 UTC

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

https://habr.com/ru/companies/bitrix/articles/1033822/

#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering

#contextengineering #promptengineering #prompt_caching #ai #aiагенты #токены

Habr @[email protected] · 2026-05-12 · 08:02 UTC

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

https://habr.com/ru/companies/bitrix/articles/1033822/

#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering

#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Code with Claude 2026: что Anthropic показали разработчикам на своей конференции

6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code . Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео). Ниже пройдемся по всем докладам и отметим самое важное.

https://habr.com/ru/articles/1032588/

#Anthropic #Claude_Code #managed_agents #routines #multiagent_orchestration #dreaming #outcomes #GitHub_Copilot #prompt_caching #Opus_47

#opus_47 #prompt_caching #github_copilot #outcomes #dreaming #multiagent_orchestration

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Code with Claude 2026: что Anthropic показали разработчикам на своей конференции

6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code . Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео). Ниже пройдемся по всем докладам и отметим самое важное.

https://habr.com/ru/articles/1032588/

#Anthropic #Claude_Code #managed_agents #routines #multiagent_orchestration #dreaming #outcomes #GitHub_Copilot #prompt_caching #Opus_47

#opus_47 #prompt_caching #github_copilot #outcomes #dreaming #multiagent_orchestration

Habr @[email protected] · 2026-05-07 · 12:12 UTC

Code with Claude 2026: что Anthropic показали разработчикам на своей конференции

6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code . Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео). Ниже пройдемся по всем докладам и отметим самое важное.

https://habr.com/ru/articles/1032588/

#Anthropic #Claude_Code #managed_agents #routines #multiagent_orchestration #dreaming #outcomes #GitHub_Copilot #prompt_caching #Opus_47

#anthropic #claude_code #managed_agents #routines #multiagent_orchestration #dreaming

Habr @[email protected] · 2026-04-18 · 10:52 UTC

[Перевод] Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

В гайде по миграции для Claude Opus 4.7 написано: новый токенайзер использует «примерно в 1.0–1.35 раза больше токенов», чем 4.6. Я замерил и получил 1.47x на технической документации, и 1.45x на реальном CLAUDE.md-файле. Цены те же. Квоты те же. Токенов в промпте больше. Max-план сгорает быстрее. Кешированный префикс стоит дороже за каждую итерацию. Рейтлимит наступает раньше. Значит, Anthropic что-то получили в обмен. Что именно — и стоит ли оно того? Я провёл два эксперимента: первый измерил стоимость, второй проверил заявленные преимущества. Вот что получилось.

https://habr.com/ru/articles/1024958/

#Claude_47 #токенайзер #prompt_caching #Claude_Code #токены #IFEval #instruction_following #Anthropic #стоимость_API #claudeopus47

#claudeopus47 #стоимость_api #anthropic #instruction_following #ifeval #токены

Habr @[email protected] · 2026-04-10 · 11:22 UTC

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

https://habr.com/ru/articles/1021832/

#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

#prefix_caching #vllm #attention #prompt_caching #kvcache #transformers

Habr @[email protected] · 2026-04-10 · 11:22 UTC

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

https://habr.com/ru/articles/1021832/

#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

#prefix_caching #vllm #attention #prompt_caching #kvcache #transformers

Habr @[email protected] · 2026-04-10 · 11:22 UTC

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

https://habr.com/ru/articles/1021832/

#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

#prefix_caching #vllm #attention #prompt_caching #kvcache #transformers

Habr @[email protected] · 2026-04-10 · 11:22 UTC

KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

https://habr.com/ru/articles/1021832/

#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache

Habr @[email protected] · 2026-02-23 · 14:02 UTC

$20 в месяц на Cursor. Куда уходят токены и что с этим можно сделать

У меня небольшой бюджет на AI-ассистент — $20 в месяц. Хватает, но только если понимаешь как работает тарификация. Я потратил время чтобы разобраться что именно ест токены, и написал framework который пытается решить эти проблемы. Расскажу про оба.

https://habr.com/ru/articles/1002714/

#cursor #cursor_ide #contextengineering #promptengineering #token_management #prompt_caching

#prompt_caching #token_management #promptengineering #contextengineering #cursor_ide #cursor

Habr @[email protected] · 2026-01-12 · 11:42 UTC

[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено

https://habr.com/ru/companies/otus/articles/984434/

#prompt_caching #префилл #декодинг #инференс_LLM #vLLM #PagedAttention #prefix_caching #фрагментация_памяти #планировщик_инференса

#планировщик_инференса #фрагментация_памяти #prefix_caching #pagedattention #vllm #инференс_llm

Habr @[email protected] · 2025-12-19 · 11:12 UTC

[Перевод] Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

Команда AI for Devs подготовила перевод и разбор статьи о Prompt Caching — технологии, которая делает входные токены LLM в разы дешевле и заметно снижает задержки. Внутри — подробное объяснение, что именно кэшируют OpenAI и Anthropic, как KV-кэш связан с attention в трансформерах и почему это не имеет ничего общего с повторным использованием ответов.

https://habr.com/ru/articles/978498/

#prompt_caching #kv #cache #llm #transformers #attention #inference #embeddings #openai #anthropic

#anthropic #openai #embeddings #inference #attention #transformers