#подходы — Public Fediverse posts on home.social

Habr @[email protected] · 2025-08-11 · 16:12 UTC

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций

В процессе разработки RAG-системы для обработки видеоконтента передо мной встала задача генерации качественных описаний для большого объема видео-клипов с использованием мультимодальных языковых моделей. Клипы имели продолжительность около 10 секунд, в отдельных экспериментах мы тестировали материал длиной в несколько десятков секунд. Финальные описания составляли от 300 до 2000 токенов и после генерации разбивались на чанки для индексации в векторной базе данных.

При тестировании различных подходов обнаружились значительные различия в скорости и качестве обработки. Компактные модели, работающие с отдельными кадрами изображений (Phi, DeepSeekVL2, Moondream), демонстрировали существенно более высокую скорость по сравнению с моделями полноценной обработки видео, однако качество генерируемых описаний оставляло желать лучшего. Типичный workflow включал конкатенацию описаний отдельных кадров, при этом в DeepSeekVL2 дополнительно использовался system prompt для более интеллигентного объединения результатов анализа кадров.

Модели для обработки изображений стабильно укладывались в временные рамки 3-5 секунд на клип, что значительно быстрее требуемого лимита. Полноценные видео-модели, получающие на вход целые видеоклипы, изначально генерировали описания за 30 секунд на vanilla PyTorch. Применение VLLM ускорило процесс до 12-15 секунд, а SGLang позволил достичь целевых 8-10 секунд на клип. Эти временные рамки позволили настроить обработку на кластере из 20 RTX 4090 и сгенерировать около миллиона описаний за месяц для production-системы.

Благодаря применению различных техник оптимизации инференса удалось не только достичь поставленных временных целей, но и существенно превзойти их, завершив генерацию необходимого объема описаний за две недели вместо месяца. Система успешно развернута в продакшене и демонстрирует стабильную производительность.

Данная статья представляет систематизированный анализ практического опыта оптимизации инференса мультимодальных LLM, полученного в ходе решения реальной production-задачи. Особое внимание уделяется сравнению эффективности различных подходов к ускорению, включая современные специализированные фреймворки VLLM и SGLang, а также аппаратные оптимизации на базе TensorRT.

https://habr.com/ru/articles/936110/

#оптимизация #инференс #анализ #подходы #модель #видео

#видео #модель #подходы #анализ #инференс #оптимизация

Habr @[email protected] · 2025-01-17 · 09:42 UTC

Так ли плох Go в глазах C++ разработчика: пишем микросервис и учимся на ошибках

Миллионы пользователей ежедневно заходят на Яндекс Маркет. И одна из ключевых задач сервиса — показывать им точные сроки доставки на поиске и в корзине. При пиковых нагрузках это около 40 тысяч запросов в секунду. Как обеспечить столь быструю и точную обработку данных о доставке? Привет, Хабр! Меня зовут Никита Деревянко. Я руковожу разработкой логистической платформы Яндекс Маркета. Люблю играть в шахматы, бильярд и программировать. Изучаю японский язык, чтобы тренировать мозг и смотреть аниме в оригинале. Расскажу о том, как построить логистический runtime на Go, не являясь Golang-разработчиком. Рассмотрим, как справиться с большим объёмом данных и какие преимущества может (или не может) предложить Golang для масштабной задачи.

https://habr.com/ru/companies/yandex/articles/874202/

#golang #высокая_нагрузка #концепции #подходы #указатели #аллокация #grpc #syncpool #слайсы #профилирование

#golang #высокая_нагрузка #концепции #подходы #указатели #аллокация

Habr @[email protected] · 2025-01-17 · 09:42 UTC

Так ли плох Go в глазах C++ разработчика: пишем микросервис и учимся на ошибках

Миллионы пользователей ежедневно заходят на Яндекс Маркет. И одна из ключевых задач сервиса — показывать им точные сроки доставки на поиске и в корзине. При пиковых нагрузках это около 40 тысяч запросов в секунду. Как обеспечить столь быструю и точную обработку данных о доставке? Привет, Хабр! Меня зовут Никита Деревянко. Я руковожу разработкой логистической платформы Яндекс Маркета. Люблю играть в шахматы, бильярд и программировать. Изучаю японский язык, чтобы тренировать мозг и смотреть аниме в оригинале. Расскажу о том, как построить логистический runtime на Go, не являясь Golang-разработчиком. Рассмотрим, как справиться с большим объёмом данных и какие преимущества может (или не может) предложить Golang для масштабной задачи.

https://habr.com/ru/companies/yandex/articles/874202/

#golang #высокая_нагрузка #концепции #подходы #указатели #аллокация #grpc #syncpool #слайсы #профилирование

#golang #высокая_нагрузка #концепции #подходы #указатели #аллокация

Habr @[email protected] · 2025-01-17 · 09:42 UTC

Так ли плох Go в глазах C++ разработчика: пишем микросервис и учимся на ошибках

Миллионы пользователей ежедневно заходят на Яндекс Маркет. И одна из ключевых задач сервиса — показывать им точные сроки доставки на поиске и в корзине. При пиковых нагрузках это около 40 тысяч запросов в секунду. Как обеспечить столь быструю и точную обработку данных о доставке? Привет, Хабр! Меня зовут Никита Деревянко. Я руковожу разработкой логистической платформы Яндекс Маркета. Люблю играть в шахматы, бильярд и программировать. Изучаю японский язык, чтобы тренировать мозг и смотреть аниме в оригинале. Расскажу о том, как построить логистический runtime на Go, не являясь Golang-разработчиком. Рассмотрим, как справиться с большим объёмом данных и какие преимущества может (или не может) предложить Golang для масштабной задачи.

https://habr.com/ru/companies/yandex/articles/874202/

#golang #высокая_нагрузка #концепции #подходы #указатели #аллокация #grpc #syncpool #слайсы #профилирование

#golang #высокая_нагрузка #концепции #подходы #указатели #аллокация

Habr @[email protected] · 2025-01-17 · 09:42 UTC

Так ли плох Go в глазах C++ разработчика: пишем микросервис и учимся на ошибках

Миллионы пользователей ежедневно заходят на Яндекс Маркет. И одна из ключевых задач сервиса — показывать им точные сроки доставки на поиске и в корзине. При пиковых нагрузках это около 40 тысяч запросов в секунду. Как обеспечить столь быструю и точную обработку данных о доставке? Привет, Хабр! Меня зовут Никита Деревянко. Я руковожу разработкой логистической платформы Яндекс Маркета. Люблю играть в шахматы, бильярд и программировать. Изучаю японский язык, чтобы тренировать мозг и смотреть аниме в оригинале. Расскажу о том, как построить логистический runtime на Go, не являясь Golang-разработчиком. Рассмотрим, как справиться с большим объёмом данных и какие преимущества может (или не может) предложить Golang для масштабной задачи.

https://habr.com/ru/companies/yandex/articles/874202/

#golang #высокая_нагрузка #концепции #подходы #указатели #аллокация #grpc #syncpool #слайсы #профилирование

#профилирование #слайсы #syncpool #grpc #аллокация #указатели

Habr @[email protected] · 2024-11-10 · 07:42 UTC

Как избежать разочарования пользователя: от NPS к ценности

Привет, Хабр! Это Глеб Михеев — член ПК, отвечающий за программу широко известной в узких фронтендерских кругах конференции FrontendConf, автор канала « Уставший техдир » и знатный амбассадор работы с джунами. Эту статью я написал по мотивам выпуска моего подкаста Фичи Катятся , где мы с Серёжей Паращенко, автором канала Product Cult , обсудили продуктовый подход. Предлагаю разобраться в теме разочарования. Что именно разочаровывает пользователей, и как это можно изменить. Поехали!

https://habr.com/ru/articles/857374/

#продукт_менеджмент #подходы #метрики #ценностное_предложение #ценность_продукта #культура #управление_продуктом #управление_проектом #обратная_связь #продуктовая_стратегия

#продуктовая_стратегия #обратная_связь #управление_проектом #управление_продуктом #культура #ценность_продукта

Habr @[email protected] · 2024-02-26 · 12:12 UTC

Схема цепи преобразования данных в системах с интерфейсами

Метод схематизации вариативности данных в точках их преобразований в информационной системе В статье описан подход к схематизации движения данных в цифровом сервисе. Он основан на таблицах решений, понятиях преобразователя и предохранителя, категориях причина—следствие и смысл—форма. Метод будет полезен дизайнерам интерфейса, аналитикам, разработчикам и инженерам качества и всем, кто детально проектирует работу цифрового сервиса. Подобные схемы выступают на проекте инструментом проектирования и коммуникации о вариантах решений на уровне процесса и данных. Вижу пользу в них во взаимодействии разработчиков, инженеров качества и дизайнеров.

https://habr.com/ru/articles/796309/

#схематизация #проектирование_интерфейсов #проектирование_систем #разработка_программного_обеспечения #методы #подходы

#подходы #методы #разработка_программного_обеспечения #проектирование_систем #проектирование_интерфейсов #схематизация