home.social

#pagedattention — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #pagedattention, aggregated by home.social.

  1. [Перевод] Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

    Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву. Как это устроено

    habr.com/ru/companies/otus/art

    #prompt_caching #префилл #декодинг #инференс_LLM #vLLM #PagedAttention #prefix_caching #фрагментация_памяти #планировщик_инференса