home.social

#prompt_caching — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #prompt_caching, aggregated by home.social.

  1. Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

    32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

    habr.com/ru/companies/bitrix/a

    #llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering

  2. Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

    32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

    habr.com/ru/companies/bitrix/a

    #llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering

  3. Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

    32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

    habr.com/ru/companies/bitrix/a

    #llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering

  4. Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

    32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

    habr.com/ru/companies/bitrix/a

    #llmагент #prefix_caching #токены #aiагенты #ai #prompt_caching #promptengineering #contextengineering

  5. Code with Claude 2026: что Anthropic показали разработчикам на своей конференции

    6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code . Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео). Ниже пройдемся по всем докладам и отметим самое важное.

    habr.com/ru/articles/1032588/

    #Anthropic #Claude_Code #managed_agents #routines #multiagent_orchestration #dreaming #outcomes #GitHub_Copilot #prompt_caching #Opus_47

  6. Code with Claude 2026: что Anthropic показали разработчикам на своей конференции

    6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code . Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео). Ниже пройдемся по всем докладам и отметим самое важное.

    habr.com/ru/articles/1032588/

    #Anthropic #Claude_Code #managed_agents #routines #multiagent_orchestration #dreaming #outcomes #GitHub_Copilot #prompt_caching #Opus_47

  7. Code with Claude 2026: что Anthropic показали разработчикам на своей конференции

    6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code . Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео). Ниже пройдемся по всем докладам и отметим самое важное.

    habr.com/ru/articles/1032588/

    #Anthropic #Claude_Code #managed_agents #routines #multiagent_orchestration #dreaming #outcomes #GitHub_Copilot #prompt_caching #Opus_47

  8. [Перевод] Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

    В гайде по миграции для Claude Opus 4.7 написано: новый токенайзер использует «примерно в 1.0–1.35 раза больше токенов», чем 4.6. Я замерил и получил 1.47x на технической документации, и 1.45x на реальном CLAUDE.md-файле. Цены те же. Квоты те же. Токенов в промпте больше. Max-план сгорает быстрее. Кешированный префикс стоит дороже за каждую итерацию. Рейтлимит наступает раньше. Значит, Anthropic что-то получили в обмен. Что именно — и стоит ли оно того? Я провёл два эксперимента: первый измерил стоимость, второй проверил заявленные преимущества. Вот что получилось.

    habr.com/ru/articles/1024958/

    #Claude_47 #токенайзер #prompt_caching #Claude_Code #токены #IFEval #instruction_following #Anthropic #стоимость_API #claudeopus47

  9. KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

    Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

    habr.com/ru/articles/1021832/

    #машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

  10. KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

    Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

    habr.com/ru/articles/1021832/

    #машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

  11. KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

    Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

    habr.com/ru/articles/1021832/

    #машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

  12. KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов

    Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться

    habr.com/ru/articles/1021832/

    #машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching

  13. $20 в месяц на Cursor. Куда уходят токены и что с этим можно сделать

    У меня небольшой бюджет на AI-ассистент — $20 в месяц. Хватает, но только если понимаешь как работает тарификация. Я потратил время чтобы разобраться что именно ест токены, и написал framework который пытается решить эти проблемы. Расскажу про оба.

    habr.com/ru/articles/1002714/

    #cursor #cursor_ide #contextengineering #promptengineering #token_management #prompt_caching

  14. [Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

    Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено

    habr.com/ru/companies/otus/art

    #prompt_caching #префилл #декодинг #инференс_LLM #vLLM #PagedAttention #prefix_caching #фрагментация_памяти #планировщик_инференса

  15. [Перевод] Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

    Команда AI for Devs подготовила перевод и разбор статьи о Prompt Caching — технологии, которая делает входные токены LLM в разы дешевле и заметно снижает задержки. Внутри — подробное объяснение, что именно кэшируют OpenAI и Anthropic, как KV-кэш связан с attention в трансформерах и почему это не имеет ничего общего с повторным использованием ответов.

    habr.com/ru/articles/978498/

    #prompt_caching #kv #cache #llm #transformers #attention #inference #embeddings #openai #anthropic