home.social

#continuous_batching — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #continuous_batching, aggregated by home.social.

  1. Архитектура AI-сервисов: почему монолит убивает latency и GPU

    Ваш AI‑чат или автокомплит тормозит при 50 запросах в секунду? Монолит убивает GPU и латенси? В этом туториале — реальная архитектура low‑latency инференса на high‑load: почему изолированный inference‑bundle вместо монолита, как выбрать между vLLM и SGLang без маркетинга, зачем нужны continuous batching и admission control. Читать разбор

    habr.com/ru/companies/otus/art

    #AIсервисы #LLM #инференс #highload #latency #GPU #vLLM #SGLang #continuous_batching #admission_control