#мультимодальность — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #мультимодальность, aggregated by home.social.
-
Все на завод! Робот импровизирует и решает промышленные задачи с 99% успеха
Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу. Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал бывший исследователь Google DeepMind. Nvidia вложилась в компанию на раннем этапе. Generalist собрала данные необычным способом. Компания использует дешевые носимые датчики — их крепят на запястья людей. Так собирают огромные массивы реальных физических действий. И дообучают роботов.
https://habr.com/ru/companies/ru_mts/articles/1032512/
#роботы #роботостроение #робототехника #железо #модели #VLA #GEN1 #гуманоиды #мультимодальность #physical_ai
-
Все на завод! Робот импровизирует и решает промышленные задачи с 99% успеха
Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу. Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал бывший исследователь Google DeepMind. Nvidia вложилась в компанию на раннем этапе. Generalist собрала данные необычным способом. Компания использует дешевые носимые датчики — их крепят на запястья людей. Так собирают огромные массивы реальных физических действий. И дообучают роботов.
https://habr.com/ru/companies/ru_mts/articles/1032512/
#роботы #роботостроение #робототехника #железо #модели #VLA #GEN1 #гуманоиды #мультимодальность #physical_ai
-
Все на завод! Робот импровизирует и решает промышленные задачи с 99% успеха
Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу. Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал бывший исследователь Google DeepMind. Nvidia вложилась в компанию на раннем этапе. Generalist собрала данные необычным способом. Компания использует дешевые носимые датчики — их крепят на запястья людей. Так собирают огромные массивы реальных физических действий. И дообучают роботов.
https://habr.com/ru/companies/ru_mts/articles/1032512/
#роботы #роботостроение #робототехника #железо #модели #VLA #GEN1 #гуманоиды #мультимодальность #physical_ai
-
Все на завод! Робот импровизирует и решает промышленные задачи с 99% успеха
Роботы долгое время умели одно: безупречно копировать заученные движения. Но стоило реальности чуть отклониться от сценария — и они терялись. Теперь одна компания заявляет, что переломила эту ситуацию. Ее робот достигает 99% успеха в реальных задачах — не в лаборатории, а на производстве и в быту. Разработчики утверждают: машина понимает окружающий мир и адаптируется на ходу. Решение предложил Generalist — стартап, который строит базовые модели для роботов общего назначения. Его основал бывший исследователь Google DeepMind. Nvidia вложилась в компанию на раннем этапе. Generalist собрала данные необычным способом. Компания использует дешевые носимые датчики — их крепят на запястья людей. Так собирают огромные массивы реальных физических действий. И дообучают роботов.
https://habr.com/ru/companies/ru_mts/articles/1032512/
#роботы #роботостроение #робототехника #железо #модели #VLA #GEN1 #гуманоиды #мультимодальность #physical_ai
-
Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0
Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.
https://habr.com/ru/companies/koda/articles/1015972/
#Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080
-
Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0
Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.
https://habr.com/ru/companies/koda/articles/1015972/
#Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080
-
Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0
Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.
https://habr.com/ru/companies/koda/articles/1015972/
#Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080
-
Мультимодальность и более предсказуемый UX: релиз KodaCode 0.8.0
Режим чата теперь работает по той же логике, что и агентный, но только с read-only инструментами — можно исследовать кодовую базу без риска случайных изменений. Edit mode убрали: его сценарии полностью покрывает агентный режим . Появилось ветвление диалогов. Если агент пошёл не туда, можно вернуться к любому вызову инструмента в истории и продолжить оттуда — новая ветка не затрагивает предыдущую. А сами сессии теперь можно экспортировать в JSON. Для мультимодальных моделей — gemini-3-flash-preview, gpt-5.3-codex, kimi-k2.5 и gpt-5.4 — добавили возможность прикрепить изображение прямо в чат.
https://habr.com/ru/companies/koda/articles/1015972/
#Koda #KodaCode #AI_coding_agent #мультимодальность #ветвящиеся_диалоги #чат_агент #JetBrains_плагин #GPT54 #релиз_080
-
Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки
Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.
https://habr.com/ru/companies/bothub/articles/976514/
#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic
-
GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU
На сегодняшний день не существует полноценного инструментария для кластеризации на графическом процессоре, что стало основным стимулом для создания универсальной библиотеки, способной автоматически решать задачи кластеризации данных различных представлений. Мы представляем GaMAC - библиотека автоматической оптимизации кластеризации с поддержкой с GPU.
https://habr.com/ru/articles/973364/
#кластеризация #clustering #мультимодальность #автоматическое_машинное_обучение #gpu #мультимодальная_кластеризация
-
Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ
Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial , MERA Code и SWE-MERA , заложив основу для системной оценки моделей в разных областях. Но главное событие впереди. MERA — это не просто имя или бренд. Это аббревиатура от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оцЕнка Русскоязычных Архитектур). Ещё в 2023 году мы поставили перед собой амбициозную цель: создать эталон для оценки мультимодальных моделей на русском языке. Сегодня мы с гордостью объявляем о достижении этой цели: встречайте MERA Multi — первый полноценный релиз мультимодального бенчмарка для русскоязычных моделей. Теперь пришло время по-настоящему измерять и сравнивать мультимодальные способности современных русскоязычных ИИ.
-
MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок
Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями
https://habr.com/ru/companies/mts_ai/articles/953292/
#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты
-
Как мы научили GigaChat слышать: погружение в аудиомодальность
В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.
-
[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM
Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу
https://habr.com/ru/companies/otus/articles/973180/
#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer
-
Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps
Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.
https://habr.com/ru/articles/950874/
#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка
-
Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки
Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.
https://habr.com/ru/companies/bothub/articles/976514/
#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic
-
Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки
Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.
https://habr.com/ru/companies/bothub/articles/976514/
#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic
-
Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки
Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.
https://habr.com/ru/companies/bothub/articles/976514/
#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic
-
GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU
На сегодняшний день не существует полноценного инструментария для кластеризации на графическом процессоре, что стало основным стимулом для создания универсальной библиотеки, способной автоматически решать задачи кластеризации данных различных представлений. Мы представляем GaMAC - библиотека автоматической оптимизации кластеризации с поддержкой с GPU.
https://habr.com/ru/articles/973364/
#кластеризация #clustering #мультимодальность #автоматическое_машинное_обучение #gpu #мультимодальная_кластеризация
-
GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU
На сегодняшний день не существует полноценного инструментария для кластеризации на графическом процессоре, что стало основным стимулом для создания универсальной библиотеки, способной автоматически решать задачи кластеризации данных различных представлений. Мы представляем GaMAC - библиотека автоматической оптимизации кластеризации с поддержкой с GPU.
https://habr.com/ru/articles/973364/
#кластеризация #clustering #мультимодальность #автоматическое_машинное_обучение #gpu #мультимодальная_кластеризация
-
GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU
На сегодняшний день не существует полноценного инструментария для кластеризации на графическом процессоре, что стало основным стимулом для создания универсальной библиотеки, способной автоматически решать задачи кластеризации данных различных представлений. Мы представляем GaMAC - библиотека автоматической оптимизации кластеризации с поддержкой с GPU.
https://habr.com/ru/articles/973364/
#кластеризация #clustering #мультимодальность #автоматическое_машинное_обучение #gpu #мультимодальная_кластеризация
-
[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM
Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу
https://habr.com/ru/companies/otus/articles/973180/
#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer
-
[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM
Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу
https://habr.com/ru/companies/otus/articles/973180/
#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer
-
[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM
Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу
https://habr.com/ru/companies/otus/articles/973180/
#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer
-
Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ
Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial , MERA Code и SWE-MERA , заложив основу для системной оценки моделей в разных областях. Но главное событие впереди. MERA — это не просто имя или бренд. Это аббревиатура от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оцЕнка Русскоязычных Архитектур). Ещё в 2023 году мы поставили перед собой амбициозную цель: создать эталон для оценки мультимодальных моделей на русском языке. Сегодня мы с гордостью объявляем о достижении этой цели: встречайте MERA Multi — первый полноценный релиз мультимодального бенчмарка для русскоязычных моделей. Теперь пришло время по-настоящему измерять и сравнивать мультимодальные способности современных русскоязычных ИИ.
-
Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ
Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial , MERA Code и SWE-MERA , заложив основу для системной оценки моделей в разных областях. Но главное событие впереди. MERA — это не просто имя или бренд. Это аббревиатура от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оцЕнка Русскоязычных Архитектур). Ещё в 2023 году мы поставили перед собой амбициозную цель: создать эталон для оценки мультимодальных моделей на русском языке. Сегодня мы с гордостью объявляем о достижении этой цели: встречайте MERA Multi — первый полноценный релиз мультимодального бенчмарка для русскоязычных моделей. Теперь пришло время по-настоящему измерять и сравнивать мультимодальные способности современных русскоязычных ИИ.
-
Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ
Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial , MERA Code и SWE-MERA , заложив основу для системной оценки моделей в разных областях. Но главное событие впереди. MERA — это не просто имя или бренд. Это аббревиатура от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оцЕнка Русскоязычных Архитектур). Ещё в 2023 году мы поставили перед собой амбициозную цель: создать эталон для оценки мультимодальных моделей на русском языке. Сегодня мы с гордостью объявляем о достижении этой цели: встречайте MERA Multi — первый полноценный релиз мультимодального бенчмарка для русскоязычных моделей. Теперь пришло время по-настоящему измерять и сравнивать мультимодальные способности современных русскоязычных ИИ.
-
MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок
Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями
https://habr.com/ru/companies/mts_ai/articles/953292/
#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты
-
MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок
Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями
https://habr.com/ru/companies/mts_ai/articles/953292/
#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты
-
MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок
Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями
https://habr.com/ru/companies/mts_ai/articles/953292/
#llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты
-
Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps
Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.
https://habr.com/ru/articles/950874/
#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка
-
Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps
Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.
https://habr.com/ru/articles/950874/
#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка
-
Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps
Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты. Обо всем это и хочется рассказать.
https://habr.com/ru/articles/950874/
#синтетические_данные #синтетика #ииагенты #aiагенты #мультимодальность #llm #ллм #картинки #разметка_данных #разметка
-
Как мы научили GigaChat слышать: погружение в аудиомодальность
В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.
-
Как мы научили GigaChat слышать: погружение в аудиомодальность
В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.
-
Как мы научили GigaChat слышать: погружение в аудиомодальность
В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.
-
Qwen2.5-Omni: Мультимодальная модель нового поколения
🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта! Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему. ✨ Почему это меняет всё? ✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре. ✅ Мгновенное взаимодействие — потоковая передача данных без задержек. ✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого! Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает? Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!
https://habr.com/ru/articles/897986/
#искусственный_интеллект #мультимодальность #qwen25Omni #AGI
-
Qwen2.5-Omni: Мультимодальная модель нового поколения
🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта! Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему. ✨ Почему это меняет всё? ✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре. ✅ Мгновенное взаимодействие — потоковая передача данных без задержек. ✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого! Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает? Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!
https://habr.com/ru/articles/897986/
#искусственный_интеллект #мультимодальность #qwen25Omni #AGI
-
Qwen2.5-Omni: Мультимодальная модель нового поколения
🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта! Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему. ✨ Почему это меняет всё? ✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре. ✅ Мгновенное взаимодействие — потоковая передача данных без задержек. ✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого! Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает? Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!
https://habr.com/ru/articles/897986/
#искусственный_интеллект #мультимодальность #qwen25Omni #AGI
-
Qwen2.5-Omni: Мультимодальная модель нового поколения
🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта! Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему. ✨ Почему это меняет всё? ✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре. ✅ Мгновенное взаимодействие — потоковая передача данных без задержек. ✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого! Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает? Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!
https://habr.com/ru/articles/897986/
#искусственный_интеллект #мультимодальность #qwen25Omni #AGI
-
Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса
По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.
https://habr.com/ru/articles/857690/
#ai #rag #llm #искусственный_интеллект #ии #мультимодальность #мультимодальные_данные
-
Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса
По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.
https://habr.com/ru/articles/857690/
#ai #rag #llm #искусственный_интеллект #ии #мультимодальность #мультимодальные_данные
-
Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса
По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.
https://habr.com/ru/articles/857690/
#ai #rag #llm #искусственный_интеллект #ии #мультимодальность #мультимодальные_данные
-
Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса
По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.
https://habr.com/ru/articles/857690/
#ai #rag #llm #искусственный_интеллект #ии #мультимодальность #мультимодальные_данные
-
Как научить LLM понимать видео? Часть 2
Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.
https://habr.com/ru/companies/sberdevices/articles/852668/
#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное+обучение
-
Как научить LLM понимать видео? Часть 2
Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.
https://habr.com/ru/companies/sberdevices/articles/852668/
#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное+обучение
-
Как научить LLM понимать видео? Часть 2
Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.
https://habr.com/ru/companies/sberdevices/articles/852668/
#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное+обучение
-
Как научить LLM понимать видео? Часть 2
Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.
https://habr.com/ru/companies/sberdevices/articles/852668/
#мультимодальность #llm #большие_языковые_модели #анализ_видео #машинное+обучение
-
Как научить LLM понимать видео? Обзор подходов
Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи. Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов.
https://habr.com/ru/companies/sberbank/articles/849358/
#большие_языковые_модели #llm #машинное+обучение #анализ_видео #анализ_изображений #мультимодальность
-
Как научить LLM понимать видео? Обзор подходов
Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи. Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов.
https://habr.com/ru/companies/sberbank/articles/849358/
#большие_языковые_модели #llm #машинное+обучение #анализ_видео #анализ_изображений #мультимодальность