#мультимодальность — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-08 · 12:22 UTC

Все на завод! Робот импровизирует и решает промышленные задачи с 99% успеха

Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу. Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал бывший исследователь Google DeepMind. Nvidia вложилась в компанию на раннем этапе. Generalist собрала данные необычным способом. Компания использует дешевые носимые датчики — их крепят на запястья людей. Так собирают огромные массивы реальных физических действий. И дообучают роботов.

https://habr.com/ru/companies/ru_mts/articles/1032512/

#роботы #роботостроение #робототехника #железо #модели #VLA #GEN1 #гуманоиды #мультимодальность #physical_ai

#physical_ai #мультимодальность #гуманоиды #gen1 #vla #модели

Habr @[email protected] · 2026-05-08 · 12:22 UTC

Все на завод! Робот импровизирует и решает промышленные задачи с 99% успеха

Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу. Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал бывший исследователь Google DeepMind. Nvidia вложилась в компанию на раннем этапе. Generalist собрала данные необычным способом. Компания использует дешевые носимые датчики — их крепят на запястья людей. Так собирают огромные массивы реальных физических действий. И дообучают роботов.

https://habr.com/ru/companies/ru_mts/articles/1032512/

#роботы #роботостроение #робототехника #железо #модели #VLA #GEN1 #гуманоиды #мультимодальность #physical_ai

#physical_ai #мультимодальность #гуманоиды #gen1 #vla #модели

Habr @[email protected] · 2026-05-08 · 12:22 UTC

Все на завод! Робот импровизирует и решает промышленные задачи с 99% успеха

Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу. Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал бывший исследователь Google DeepMind. Nvidia вложилась в компанию на раннем этапе. Generalist собрала данные необычным способом. Компания использует дешевые носимые датчики — их крепят на запястья людей. Так собирают огромные массивы реальных физических действий. И дообучают роботов.

https://habr.com/ru/companies/ru_mts/articles/1032512/

#роботы #роботостроение #робототехника #железо #модели #VLA #GEN1 #гуманоиды #мультимодальность #physical_ai

#physical_ai #мультимодальность #гуманоиды #gen1 #vla #модели

Habr @[email protected] · 2026-05-08 · 12:22 UTC

Все на завод! Робот импровизирует и решает промышленные задачи с 99% успеха

Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу. Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал бывший исследователь Google DeepMind. Nvidia вложилась в компанию на раннем этапе. Generalist собрала данные необычным способом. Компания использует дешевые носимые датчики — их крепят на запястья людей. Так собирают огромные массивы реальных физических действий. И дообучают роботов.

https://habr.com/ru/companies/ru_mts/articles/1032512/

#роботы #роботостроение #робототехника #железо #модели #VLA #GEN1 #гуманоиды #мультимодальность #physical_ai

#роботы #роботостроение #робототехника #железо #модели #vla

Habr @[email protected] · 2026-03-27 · 14:12 UTC

Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0

Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.

https://habr.com/ru/companies/koda/articles/1015972/

#Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080

#релиз_080 #gpt54 #jetbrains_плагин #чат_агент #ветвящиеся_диалоги #мультимодальность

Habr @[email protected] · 2026-03-27 · 14:12 UTC

Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0

Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.

https://habr.com/ru/companies/koda/articles/1015972/

#Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080

#релиз_080 #gpt54 #jetbrains_плагин #чат_агент #ветвящиеся_диалоги #мультимодальность

Habr @[email protected] · 2026-03-27 · 14:12 UTC

Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0

Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.

https://habr.com/ru/companies/koda/articles/1015972/

#Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080

#релиз_080 #gpt54 #jetbrains_плагин #чат_агент #ветвящиеся_диалоги #мультимодальность

Habr @[email protected] · 2026-03-27 · 14:12 UTC

Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0

Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.

https://habr.com/ru/companies/koda/articles/1015972/

#Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080

#koda #kodacode #ai_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#garlic #сундар_пичай #код_красный #мультимодальность #aime #humanitys_last_exam

Habr @[email protected] · 2025-12-04 · 15:02 UTC

GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU

На сегодняшний день не существует полноценного инструментария для кластеризации на графическом процессоре, что стало основным стимулом для создания универсальной библиотеки, способной автоматически решать задачи кластеризации данных различных представлений. Мы представляем GaMAC - библиотека автоматической оптимизации кластеризации с поддержкой с GPU.

https://habr.com/ru/articles/973364/

#кластеризация #clustering #мультимодальность #автоматическое_машинное_обучение #gpu #мультимодальная_кластеризация

#мультимодальная_кластеризация #gpu #автоматическое_машинное_обучение #мультимодальность #clustering #кластеризация

Habr @[email protected] · 2025-11-21 · 12:02 UTC

Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ

Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial , MERA Code и SWE-MERA , заложив основу для системной оценки моделей в разных областях. Но главное событие впереди. MERA — это не просто имя или бренд. Это аббревиатура от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оцЕнка Русскоязычных Архитектур). Ещё в 2023 году мы поставили перед собой амбициозную цель: создать эталон для оценки мультимодальных моделей на русском языке. Сегодня мы с гордостью объявляем о достижении этой цели: встречайте MERA Multi — первый полноценный релиз мультимодального бенчмарка для русскоязычных моделей. Теперь пришло время по-настоящему измерять и сравнивать мультимодальные способности современных русскоязычных ИИ.

https://habr.com/ru/companies/sberbank/articles/967862/

#бенчмарки #мультимодальность #mera

Habr @[email protected] · 2025-10-09 · 09:52 UTC

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

#датасеты #мультимодальные_модели #мультимодальность #бенчмарки_бям #бенчмарки #vlm

Habr @[email protected] · 2025-04-29 · 12:22 UTC

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

https://habr.com/ru/companies/sberbank/articles/904894/

#мультимодальность #llm #asr #речевые_технологии

Habr @[email protected] · 2025-12-04 · 09:42 UTC

[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM

Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу

https://habr.com/ru/companies/otus/articles/973180/

#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer

#vision_transformer #обучение_модели #визуальные_энкодеры #мультимодальность #визуальноязыковые_модели #компьютерное_зрение

Habr @[email protected] · 2025-09-26 · 11:12 UTC

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.

https://habr.com/ru/articles/950874/

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#garlic #сундар_пичай #код_красный #мультимодальность #aime #humanitys_last_exam

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#garlic #сундар_пичай #код_красный #мультимодальность #aime #humanitys_last_exam

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime

Habr @[email protected] · 2025-12-04 · 15:02 UTC

GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU

На сегодняшний день не существует полноценного инструментария для кластеризации на графическом процессоре, что стало основным стимулом для создания универсальной библиотеки, способной автоматически решать задачи кластеризации данных различных представлений. Мы представляем GaMAC - библиотека автоматической оптимизации кластеризации с поддержкой с GPU.

https://habr.com/ru/articles/973364/

#кластеризация #clustering #мультимодальность #автоматическое_машинное_обучение #gpu #мультимодальная_кластеризация

#мультимодальная_кластеризация #gpu #автоматическое_машинное_обучение #мультимодальность #clustering #кластеризация

Habr @[email protected] · 2025-12-04 · 15:02 UTC

GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU

На сегодняшний день не существует полноценного инструментария для кластеризации на графическом процессоре, что стало основным стимулом для создания универсальной библиотеки, способной автоматически решать задачи кластеризации данных различных представлений. Мы представляем GaMAC - библиотека автоматической оптимизации кластеризации с поддержкой с GPU.

https://habr.com/ru/articles/973364/

#кластеризация #clustering #мультимодальность #автоматическое_машинное_обучение #gpu #мультимодальная_кластеризация

#мультимодальная_кластеризация #gpu #автоматическое_машинное_обучение #мультимодальность #clustering #кластеризация

Habr @[email protected] · 2025-12-04 · 15:02 UTC

GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU

На сегодняшний день не существует полноценного инструментария для кластеризации на графическом процессоре, что стало основным стимулом для создания универсальной библиотеки, способной автоматически решать задачи кластеризации данных различных представлений. Мы представляем GaMAC - библиотека автоматической оптимизации кластеризации с поддержкой с GPU.

https://habr.com/ru/articles/973364/

#кластеризация #clustering #мультимодальность #автоматическое_машинное_обучение #gpu #мультимодальная_кластеризация

Habr @[email protected] · 2025-12-04 · 09:42 UTC

[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM

Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу

https://habr.com/ru/companies/otus/articles/973180/

#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer

#vision_transformer #обучение_модели #визуальные_энкодеры #мультимодальность #визуальноязыковые_модели #компьютерное_зрение

Habr @[email protected] · 2025-12-04 · 09:42 UTC

[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM

Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу

https://habr.com/ru/companies/otus/articles/973180/

#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer

#vision_transformer #обучение_модели #визуальные_энкодеры #мультимодальность #визуальноязыковые_модели #компьютерное_зрение

Habr @[email protected] · 2025-12-04 · 09:42 UTC

[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM

Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу

https://habr.com/ru/companies/otus/articles/973180/

#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer

#computer_vision #cv #машинное_обучение #нейросети #компьютерное_зрение #визуальноязыковые_модели

Habr @[email protected] · 2025-11-21 · 12:02 UTC

Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ

Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial , MERA Code и SWE-MERA , заложив основу для системной оценки моделей в разных областях. Но главное событие впереди. MERA — это не просто имя или бренд. Это аббревиатура от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оцЕнка Русскоязычных Архитектур). Ещё в 2023 году мы поставили перед собой амбициозную цель: создать эталон для оценки мультимодальных моделей на русском языке. Сегодня мы с гордостью объявляем о достижении этой цели: встречайте MERA Multi — первый полноценный релиз мультимодального бенчмарка для русскоязычных моделей. Теперь пришло время по-настоящему измерять и сравнивать мультимодальные способности современных русскоязычных ИИ.

https://habr.com/ru/companies/sberbank/articles/967862/

#бенчмарки #мультимодальность #mera

Habr @[email protected] · 2025-11-21 · 12:02 UTC

Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ

Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial , MERA Code и SWE-MERA , заложив основу для системной оценки моделей в разных областях. Но главное событие впереди. MERA — это не просто имя или бренд. Это аббревиатура от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оцЕнка Русскоязычных Архитектур). Ещё в 2023 году мы поставили перед собой амбициозную цель: создать эталон для оценки мультимодальных моделей на русском языке. Сегодня мы с гордостью объявляем о достижении этой цели: встречайте MERA Multi — первый полноценный релиз мультимодального бенчмарка для русскоязычных моделей. Теперь пришло время по-настоящему измерять и сравнивать мультимодальные способности современных русскоязычных ИИ.

https://habr.com/ru/companies/sberbank/articles/967862/

#бенчмарки #мультимодальность #mera

Habr @[email protected] · 2025-11-21 · 12:02 UTC

Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ

Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial , MERA Code и SWE-MERA , заложив основу для системной оценки моделей в разных областях. Но главное событие впереди. MERA — это не просто имя или бренд. Это аббревиатура от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оцЕнка Русскоязычных Архитектур). Ещё в 2023 году мы поставили перед собой амбициозную цель: создать эталон для оценки мультимодальных моделей на русском языке. Сегодня мы с гордостью объявляем о достижении этой цели: встречайте MERA Multi — первый полноценный релиз мультимодального бенчмарка для русскоязычных моделей. Теперь пришло время по-настоящему измерять и сравнивать мультимодальные способности современных русскоязычных ИИ.

https://habr.com/ru/companies/sberbank/articles/967862/

#бенчмарки #мультимодальность #mera

#mera #мультимодальность #бенчмарки

Habr @[email protected] · 2025-10-09 · 09:52 UTC

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

#датасеты #мультимодальные_модели #мультимодальность #бенчмарки_бям #бенчмарки #vlm

Habr @[email protected] · 2025-10-09 · 09:52 UTC

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

#датасеты #мультимодальные_модели #мультимодальность #бенчмарки_бям #бенчмарки #vlm

Habr @[email protected] · 2025-10-09 · 09:52 UTC

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

https://habr.com/ru/companies/mts_ai/articles/953292/

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность

Habr @[email protected] · 2025-09-26 · 11:12 UTC

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.

https://habr.com/ru/articles/950874/

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm

Habr @[email protected] · 2025-09-26 · 11:12 UTC

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.

https://habr.com/ru/articles/950874/

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm

Habr @[email protected] · 2025-09-26 · 11:12 UTC

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.

https://habr.com/ru/articles/950874/

#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка

#разметка #разметка_данных #картинки #ллм #llm #мультимодальность

Habr @[email protected] · 2025-04-29 · 12:22 UTC

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

https://habr.com/ru/companies/sberbank/articles/904894/

#мультимодальность #llm #asr #речевые_технологии

Habr @[email protected] · 2025-04-29 · 12:22 UTC

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

https://habr.com/ru/companies/sberbank/articles/904894/

#мультимодальность #llm #asr #речевые_технологии

Habr @[email protected] · 2025-04-29 · 12:22 UTC

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

https://habr.com/ru/companies/sberbank/articles/904894/

#мультимодальность #llm #asr #речевые_технологии

#речевые_технологии #asr #llm #мультимодальность

Habr @[email protected] · 2025-04-06 · 09:52 UTC

Qwen2.5-Omni: Мультимодальная модель нового поколения

🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта! Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему. ✨ Почему это меняет всё? ✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре. ✅ Мгновенное взаимодействие — потоковая передача данных без задержек. ✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого! Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает? Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!

https://habr.com/ru/articles/897986/

#искусственный_интеллект #мультимодальность #qwen25Omni #AGI

#искусственный_интеллект #мультимодальность #qwen25omni #agi

Habr @[email protected] · 2025-04-06 · 09:52 UTC

Qwen2.5-Omni: Мультимодальная модель нового поколения

🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта! Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему. ✨ Почему это меняет всё? ✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре. ✅ Мгновенное взаимодействие — потоковая передача данных без задержек. ✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого! Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает? Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!

https://habr.com/ru/articles/897986/

#искусственный_интеллект #мультимодальность #qwen25Omni #AGI

#искусственный_интеллект #мультимодальность #qwen25omni #agi

Habr @[email protected] · 2025-04-06 · 09:52 UTC

Qwen2.5-Omni: Мультимодальная модель нового поколения

🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта! Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему. ✨ Почему это меняет всё? ✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре. ✅ Мгновенное взаимодействие — потоковая передача данных без задержек. ✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого! Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает? Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!

https://habr.com/ru/articles/897986/

#искусственный_интеллект #мультимодальность #qwen25Omni #AGI

#искусственный_интеллект #мультимодальность #qwen25omni #agi

Habr @[email protected] · 2025-04-06 · 09:52 UTC

Qwen2.5-Omni: Мультимодальная модель нового поколения

🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта! Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему. ✨ Почему это меняет всё? ✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре. ✅ Мгновенное взаимодействие — потоковая передача данных без задержек. ✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого! Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает? Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!

https://habr.com/ru/articles/897986/

#искусственный_интеллект #мультимодальность #qwen25Omni #AGI

#agi #qwen25omni #мультимодальность #искусственный_интеллект

Habr @[email protected] · 2024-11-11 · 14:52 UTC

Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса

По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.

https://habr.com/ru/articles/857690/

#ai #rag #llm #искусственный_интеллект #ии #мультимодальность #мультимодальные_данные

#мультимодальные_данные #мультимодальность #ии #искусственный_интеллект #llm #rag

Habr @[email protected] · 2024-11-11 · 14:52 UTC

Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса

По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.

https://habr.com/ru/articles/857690/

#ai #rag #llm #искусственный_интеллект #ии #мультимодальность #мультимодальные_данные

#мультимодальные_данные #мультимодальность #ии #искусственный_интеллект #llm #rag

Habr @[email protected] · 2024-11-11 · 14:52 UTC

Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса

По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.

https://habr.com/ru/articles/857690/

#ai #rag #llm #искусственный_интеллект #ии #мультимодальность #мультимодальные_данные

#мультимодальные_данные #мультимодальность #ии #искусственный_интеллект #llm #rag

Habr @[email protected] · 2024-11-11 · 14:52 UTC

Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса

По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.

https://habr.com/ru/articles/857690/

#ai #rag #llm #искусственный_интеллект #ии #мультимодальность #мультимодальные_данные

#ai #rag #llm #искусственный_интеллект #ии #мультимодальность

Habr @[email protected] · 2024-10-25 · 09:02 UTC

Как научить LLM понимать видео? Часть 2

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

https://habr.com/ru/companies/sberdevices/articles/852668/

#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное+обучение

#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное

Habr @[email protected] · 2024-10-25 · 09:02 UTC

Как научить LLM понимать видео? Часть 2

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

https://habr.com/ru/companies/sberdevices/articles/852668/

#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное+обучение

#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное

Habr @[email protected] · 2024-10-25 · 09:02 UTC

Как научить LLM понимать видео? Часть 2

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

https://habr.com/ru/companies/sberdevices/articles/852668/

#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное+обучение

#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное

Habr @[email protected] · 2024-10-25 · 09:02 UTC

Как научить LLM понимать видео? Часть 2

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

https://habr.com/ru/companies/sberdevices/articles/852668/

#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное+обучение

#машинное #анализ_видео #большие_языковые_модели #llm #мультимодальность

Habr @[email protected] · 2024-10-10 · 08:32 UTC

Как научить LLM понимать видео? Обзор подходов

Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи. Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов.

https://habr.com/ru/companies/sberbank/articles/849358/

#большие_языковые_модели #llm #машинное+обучение #анализ_видео #анализ_изображений #мультимодальность

#большие_языковые_модели #llm #машинное #анализ_видео #анализ_изображений #мультимодальность

Habr @[email protected] · 2024-10-10 · 08:32 UTC

Как научить LLM понимать видео? Обзор подходов

Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи. Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов.

https://habr.com/ru/companies/sberbank/articles/849358/

#большие_языковые_модели #llm #машинное+обучение #анализ_видео #анализ_изображений #мультимодальность

#большие_языковые_модели #llm #машинное #анализ_видео #анализ_изображений #мультимодальность