#prompt_caching — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #prompt_caching, aggregated by home.social.
-
Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах
32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.
https://habr.com/ru/companies/bitrix/articles/1033822/
#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering
-
Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах
32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.
https://habr.com/ru/companies/bitrix/articles/1033822/
#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering
-
Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах
32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.
https://habr.com/ru/companies/bitrix/articles/1033822/
#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering
-
Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах
32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.
https://habr.com/ru/companies/bitrix/articles/1033822/
#llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering
-
Code with Claude 2026: что Anthropic показали разработчикам на своей конференции
6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code . Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео). Ниже пройдемся по всем докладам и отметим самое важное.
https://habr.com/ru/articles/1032588/
#Anthropic #Claude_Code #managed_agents #routines #multiagent_orchestration #dreaming #outcomes #GitHub_Copilot #prompt_caching #Opus_47
-
Code with Claude 2026: что Anthropic показали разработчикам на своей конференции
6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code . Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео). Ниже пройдемся по всем докладам и отметим самое важное.
https://habr.com/ru/articles/1032588/
#Anthropic #Claude_Code #managed_agents #routines #multiagent_orchestration #dreaming #outcomes #GitHub_Copilot #prompt_caching #Opus_47
-
Code with Claude 2026: что Anthropic показали разработчикам на своей конференции
6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code . Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео). Ниже пройдемся по всем докладам и отметим самое важное.
https://habr.com/ru/articles/1032588/
#Anthropic #Claude_Code #managed_agents #routines #multiagent_orchestration #dreaming #outcomes #GitHub_Copilot #prompt_caching #Opus_47
-
[Перевод] Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic
В гайде по миграции для Claude Opus 4.7 написано: новый токенайзер использует «примерно в 1.0–1.35 раза больше токенов», чем 4.6. Я замерил и получил 1.47x на технической документации, и 1.45x на реальном CLAUDE.md-файле. Цены те же. Квоты те же. Токенов в промпте больше. Max-план сгорает быстрее. Кешированный префикс стоит дороже за каждую итерацию. Рейтлимит наступает раньше. Значит, Anthropic что-то получили в обмен. Что именно — и стоит ли оно того? Я провёл два эксперимента: первый измерил стоимость, второй проверил заявленные преимущества. Вот что получилось.
https://habr.com/ru/articles/1024958/
#Claude_47 #токенайзер #prompt_caching #Claude_Code #токены #IFEval #instruction_following #Anthropic #стоимость_API #claudeopus47
-
KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов
Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться
https://habr.com/ru/articles/1021832/
#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching
-
KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов
Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться
https://habr.com/ru/articles/1021832/
#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching
-
KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов
Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться
https://habr.com/ru/articles/1021832/
#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching
-
KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов
Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться
https://habr.com/ru/articles/1021832/
#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching
-
$20 в месяц на Cursor. Куда уходят токены и что с этим можно сделать
У меня небольшой бюджет на AI-ассистент — $20 в месяц. Хватает, но только если понимаешь как работает тарификация. Я потратил время чтобы разобраться что именно ест токены, и написал framework который пытается решить эти проблемы. Расскажу про оба.
https://habr.com/ru/articles/1002714/
#cursor #cursor_ide #contextengineering #promptengineering #token_management #prompt_caching
-
[Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы
Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено
https://habr.com/ru/companies/otus/articles/984434/
#prompt_caching #префилл #декодинг #инференс_LLM #vLLM #PagedAttention #prefix_caching #фрагментация_памяти #планировщик_инференса
-
[Перевод] Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?
Команда AI for Devs подготовила перевод и разбор статьи о Prompt Caching — технологии, которая делает входные токены LLM в разы дешевле и заметно снижает задержки. Внутри — подробное объяснение, что именно кэшируют OpenAI и Anthropic, как KV-кэш связан с attention в трансформерах и почему это не имеет ничего общего с повторным использованием ответов.
https://habr.com/ru/articles/978498/
#prompt_caching #kv #cache #llm #transformers #attention #inference #embeddings #openai #anthropic