home.social

#мультимодальные_модели — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #мультимодальные_модели, aggregated by home.social.

  1. vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

    Привет, Хабр! Меня зовут Кирилл Нетреба , я Backend-ML-инженер в Авито . В этой статье я разберу, как мы научили платформу отыскивать нужные пользователю объявления, даже если в них нет соответствующего запросу текста . Мы препарируем связку из Qwen2.5-VL, фреймворка vLLM и LoRA-адаптеров, а также заглянем в бэкенд-инфраструктуру, которая переваривает миллионы обновлений в сутки без деградации latency. Это история о том, как в эпоху, когда традиционный полнотекстовый поиск бессилен перед лаконичностью пользователей, ему на помощь приходит машина, обученная на изображениях и языке.

    habr.com/ru/companies/avito/ar

    #vllm #loraадаптеры #llm #инференс #мультимодальные_модели

  2. Мультимодальные модели – грубый и дорогой инструмент

    Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

    habr.com/ru/articles/1023916/

    #мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision #ui #ai_agents

  3. Мультимодальные модели – грубый и дорогой инструмент

    Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

    habr.com/ru/articles/1023916/

    #мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision #ui #ai_agents

  4. Мультимодальные модели – грубый и дорогой инструмент

    Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

    habr.com/ru/articles/1023916/

    #мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision #ui #ai_agents

  5. Мультимодальные модели – грубый и дорогой инструмент

    Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

    habr.com/ru/articles/1023916/

    #мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision #ui #ai_agents

  6. Тонкая настройка Gemma 4 на Cloud Run Jobs: использование серверных GPU для классификации пород животных

    В этом поколении открытых моделей улучшены возможности рассуждения и эффективность архитектуры. Ниже будет инструкция по дообучению модели на собственных данных. | Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса . Там я публикую свежие новости и разборы инструментов в числе первых. |

    habr.com/ru/articles/1022346/

    #gemma_4 #lora #cloud_run #google_cloud #мультимодальные_модели #машинное+обучение

  7. Тонкая настройка Gemma 4 на Cloud Run Jobs: использование серверных GPU для классификации пород животных

    В этом поколении открытых моделей улучшены возможности рассуждения и эффективность архитектуры. Ниже будет инструкция по дообучению модели на собственных данных. | Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса . Там я публикую свежие новости и разборы инструментов в числе первых. |

    habr.com/ru/articles/1022346/

    #gemma_4 #lora #cloud_run #google_cloud #мультимодальные_модели #машинное+обучение

  8. Тонкая настройка Gemma 4 на Cloud Run Jobs: использование серверных GPU для классификации пород животных

    В этом поколении открытых моделей улучшены возможности рассуждения и эффективность архитектуры. Ниже будет инструкция по дообучению модели на собственных данных. | Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса . Там я публикую свежие новости и разборы инструментов в числе первых. |

    habr.com/ru/articles/1022346/

    #gemma_4 #lora #cloud_run #google_cloud #мультимодальные_модели #машинное+обучение

  9. Тонкая настройка Gemma 4 на Cloud Run Jobs: использование серверных GPU для классификации пород животных

    В этом поколении открытых моделей улучшены возможности рассуждения и эффективность архитектуры. Ниже будет инструкция по дообучению модели на собственных данных. | Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса . Там я публикую свежие новости и разборы инструментов в числе первых. |

    habr.com/ru/articles/1022346/

    #gemma_4 #lora #cloud_run #google_cloud #мультимодальные_модели #машинное+обучение

  10. [Перевод] Как работают ИИ-агенты для разработки

    ИИ-агенты для разработки быстро стали частью повседневной практики, но за внешней «магией» скрывается вполне конкретная архитектура: языковая модель, системный промпт, инструменты и цикл их вызова. В этой статье разберём, как это устроено на уровне механики – от токенов и контекста до вызова функций и режима рассуждения, – и почему именно эти детали определяют качество, стоимость и пределы таких систем. Это попытка посмотреть на агентный подход без иллюзий и понять, где заканчивается удобный интерфейс и начинается инженерия. Разобраться в теме

    habr.com/ru/companies/otus/art

    #llm #ИИагенты #архитектура_ИИ #вызов_инструментов #RAG #мультимодальные_модели

  11. Итоги 2025 в AI: прорывы, которые сдвинули индустрию, и ставки на 2026

    2025-й стал годом перехода от эффектных демо к суровой инженерной рутине. В этой статье я подвожу личные итоги года, анализируя работу с GPT-5.1, Claude 4.5 и локальными моделями, а также разбираю, как изменились наши требования к кодингу, видеогенерации и научным исследованиям. В финале — прагматичный прогноз на 2026 год.

    habr.com/ru/articles/979852/

    #итоги_2025 #нейросети_2025 #gpt51 #gemini3 #локальный_запуск_llm #ai_агенты #claude_code #kilo_code #мультимодальные_модели #вайбкодинг

  12. Итоги 2025 в AI: прорывы, которые сдвинули индустрию, и ставки на 2026

    2025-й стал годом перехода от эффектных демо к суровой инженерной рутине. В этой статье я подвожу личные итоги года, анализируя работу с GPT-5.1, Claude 4.5 и локальными моделями, а также разбираю, как изменились наши требования к кодингу, видеогенерации и научным исследованиям. В финале — прагматичный прогноз на 2026 год.

    habr.com/ru/articles/979852/

    #итоги_2025 #нейросети_2025 #gpt51 #gemini3 #локальный_запуск_llm #ai_агенты #claude_code #kilo_code #мультимодальные_модели #вайбкодинг

  13. Итоги 2025 в AI: прорывы, которые сдвинули индустрию, и ставки на 2026

    2025-й стал годом перехода от эффектных демо к суровой инженерной рутине. В этой статье я подвожу личные итоги года, анализируя работу с GPT-5.1, Claude 4.5 и локальными моделями, а также разбираю, как изменились наши требования к кодингу, видеогенерации и научным исследованиям. В финале — прагматичный прогноз на 2026 год.

    habr.com/ru/articles/979852/

    #итоги_2025 #нейросети_2025 #gpt51 #gemini3 #локальный_запуск_llm #ai_агенты #claude_code #kilo_code #мультимодальные_модели #вайбкодинг

  14. Итоги 2025 в AI: прорывы, которые сдвинули индустрию, и ставки на 2026

    2025-й стал годом перехода от эффектных демо к суровой инженерной рутине. В этой статье я подвожу личные итоги года, анализируя работу с GPT-5.1, Claude 4.5 и локальными моделями, а также разбираю, как изменились наши требования к кодингу, видеогенерации и научным исследованиям. В финале — прагматичный прогноз на 2026 год.

    habr.com/ru/articles/979852/

    #итоги_2025 #нейросети_2025 #gpt51 #gemini3 #локальный_запуск_llm #ai_агенты #claude_code #kilo_code #мультимодальные_модели #вайбкодинг

  15. AI Journey 2025: Как первый день конференции изменил представление о будущем российского ИИ

    Вчера, 19 ноября в Москве стартовала юбилейная конференция AI Journey, и первый день оказался настолько насыщенным прорывными анонсами, что потребуется не одна статья для их осмысления. От президентских поручений до танцующего робота - разбираемся, что произошло и почему это важно.

    habr.com/ru/articles/968250/

    #генеративные_модели #мультимодальные_модели #робототехника #voice

  16. Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно

    В 2020 году AI был архипелагом изолированных моделей. К 2025-му всё изменилось. Эта статья — глубокое погружение в единую парадигму Next Token Prediction, которая позволила GPT-5.1, Gemini, Claude и Grok научиться понимать текст, изображения и видео одновременно. Разбираем, как это работает, и на что способны флагманские модели сегодня.

    habr.com/ru/articles/967218/

    #llm #локальный_ai #мультимодальные_модели #gpt51 #gemini_25_pro #claude_opus_41 #grok_4 #next_token_prediction #vision_transformer

  17. Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно

    В 2020 году AI был архипелагом изолированных моделей. К 2025-му всё изменилось. Эта статья — глубокое погружение в единую парадигму Next Token Prediction, которая позволила GPT-5.1, Gemini, Claude и Grok научиться понимать текст, изображения и видео одновременно. Разбираем, как это работает, и на что способны флагманские модели сегодня.

    habr.com/ru/articles/967218/

    #llm #локальный_ai #мультимодальные_модели #gpt51 #gemini_25_pro #claude_opus_41 #grok_4 #next_token_prediction #vision_transformer

  18. Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно

    В 2020 году AI был архипелагом изолированных моделей. К 2025-му всё изменилось. Эта статья — глубокое погружение в единую парадигму Next Token Prediction, которая позволила GPT-5.1, Gemini, Claude и Grok научиться понимать текст, изображения и видео одновременно. Разбираем, как это работает, и на что способны флагманские модели сегодня.

    habr.com/ru/articles/967218/

    #llm #локальный_ai #мультимодальные_модели #gpt51 #gemini_25_pro #claude_opus_41 #grok_4 #next_token_prediction #vision_transformer

  19. Мультимодальный AI в 2025: как GPT‑5.1, Gemini, Claude и Grok научились понимать текст, изображения и видео одновременно

    В 2020 году AI был архипелагом изолированных моделей. К 2025-му всё изменилось. Эта статья — глубокое погружение в единую парадигму Next Token Prediction, которая позволила GPT-5.1, Gemini, Claude и Grok научиться понимать текст, изображения и видео одновременно. Разбираем, как это работает, и на что способны флагманские модели сегодня.

    habr.com/ru/articles/967218/

    #llm #локальный_ai #мультимодальные_модели #gpt51 #gemini_25_pro #claude_opus_41 #grok_4 #next_token_prediction #vision_transformer

  20. Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

    Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе. Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

    habr.com/ru/articles/966846/

    #ocr #распознавание_текста #vlm #llm #мультимодальные_модели #qwen3 #gemma3 #paddleocr

  21. MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

    Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

    habr.com/ru/companies/mts_ai/a

    #llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

  22. MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

    Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

    habr.com/ru/companies/mts_ai/a

    #llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

  23. MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

    Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

    habr.com/ru/companies/mts_ai/a

    #llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

  24. MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

    Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час. За подробностями

    habr.com/ru/companies/mts_ai/a

    #llmмодели #multimodal_llm #vlm #бенчмарки #бенчмарки_бям #мультимодальность #мультимодальные_модели #датасеты

  25. Мозг и мультимодальные нейросети как генераторы виртуальной реальности

    В данной статье речь пойдёт не о современных VR-гарнитурах, игровых мирах и метавселенных, а о чём-то более фундаментальном. Как положено философу, я абстрагирую идею виртуальной реальности от её технического воплощения, чтобы рассмотреть её в максимально обобщённом виде, разобраться, что представляет собой настоящий генератор виртуальной реальности, каковы его физические и логические пределы и насколько мы приблизились к его созданию. Также я опишу, как будет проходить поэтапная интеграция искусственного и естественного интеллекта через нейроинтерфейс. Но для начала нам всё же потребуется краткий обзор истории развития VR-технологий, которые на мой взгляд всё ещё находятся в каменном веке. Вы спросите: да как может судить о виртуальной реальности безнадёжно отставший от жизни динозавр, который не то что VR-очки никогда не примерял, но даже ни разу не смотрел кино в 3D, и не знает ничего лучше старых добрых компьютерных игр нулевых годов, в которые не играл уже лет 10? Да, признаю, что я весьма далёк от современной VR-индустрии и её продуктов, но у меня есть генератор виртуальной реальности получше – биологический мозг.

    habr.com/ru/articles/951024/

    #виртуальная_реальность #vr #нейроинтерфейс #мультимодальные_модели #нки #нейролинк #теория_предсказательного_разума #предиктивное_кодирование #байесовский_мозг #принцип_свободной_энергии

  26. Мозг и мультимодальные нейросети как генераторы виртуальной реальности

    В данной статье речь пойдёт не о современных VR-гарнитурах, игровых мирах и метавселенных, а о чём-то более фундаментальном. Как положено философу, я абстрагирую идею виртуальной реальности от её технического воплощения, чтобы рассмотреть её в максимально обобщённом виде, разобраться, что представляет собой настоящий генератор виртуальной реальности, каковы его физические и логические пределы и насколько мы приблизились к его созданию. Также я опишу, как будет проходить поэтапная интеграция искусственного и естественного интеллекта через нейроинтерфейс. Но для начала нам всё же потребуется краткий обзор истории развития VR-технологий, которые на мой взгляд всё ещё находятся в каменном веке. Вы спросите: да как может судить о виртуальной реальности безнадёжно отставший от жизни динозавр, который не то что VR-очки никогда не примерял, но даже ни разу не смотрел кино в 3D, и не знает ничего лучше старых добрых компьютерных игр нулевых годов, в которые не играл уже лет 10? Да, признаю, что я весьма далёк от современной VR-индустрии и её продуктов, но у меня есть генератор виртуальной реальности получше – биологический мозг.

    habr.com/ru/articles/951024/

    #виртуальная_реальность #vr #нейроинтерфейс #мультимодальные_модели #нки #нейролинк #теория_предсказательного_разума #предиктивное_кодирование #байесовский_мозг #принцип_свободной_энергии

  27. Мозг и мультимодальные нейросети как генераторы виртуальной реальности

    В данной статье речь пойдёт не о современных VR-гарнитурах, игровых мирах и метавселенных, а о чём-то более фундаментальном. Как положено философу, я абстрагирую идею виртуальной реальности от её технического воплощения, чтобы рассмотреть её в максимально обобщённом виде, разобраться, что представляет собой настоящий генератор виртуальной реальности, каковы его физические и логические пределы и насколько мы приблизились к его созданию. Также я опишу, как будет проходить поэтапная интеграция искусственного и естественного интеллекта через нейроинтерфейс. Но для начала нам всё же потребуется краткий обзор истории развития VR-технологий, которые на мой взгляд всё ещё находятся в каменном веке. Вы спросите: да как может судить о виртуальной реальности безнадёжно отставший от жизни динозавр, который не то что VR-очки никогда не примерял, но даже ни разу не смотрел кино в 3D, и не знает ничего лучше старых добрых компьютерных игр нулевых годов, в которые не играл уже лет 10? Да, признаю, что я весьма далёк от современной VR-индустрии и её продуктов, но у меня есть генератор виртуальной реальности получше – биологический мозг.

    habr.com/ru/articles/951024/

    #виртуальная_реальность #vr #нейроинтерфейс #мультимодальные_модели #нки #нейролинк #теория_предсказательного_разума #предиктивное_кодирование #байесовский_мозг #принцип_свободной_энергии

  28. Мозг и мультимодальные нейросети как генераторы виртуальной реальности

    В данной статье речь пойдёт не о современных VR-гарнитурах, игровых мирах и метавселенных, а о чём-то более фундаментальном. Как положено философу, я абстрагирую идею виртуальной реальности от её технического воплощения, чтобы рассмотреть её в максимально обобщённом виде, разобраться, что представляет собой настоящий генератор виртуальной реальности, каковы его физические и логические пределы и насколько мы приблизились к его созданию. Также я опишу, как будет проходить поэтапная интеграция искусственного и естественного интеллекта через нейроинтерфейс. Но для начала нам всё же потребуется краткий обзор истории развития VR-технологий, которые на мой взгляд всё ещё находятся в каменном веке. Вы спросите: да как может судить о виртуальной реальности безнадёжно отставший от жизни динозавр, который не то что VR-очки никогда не примерял, но даже ни разу не смотрел кино в 3D, и не знает ничего лучше старых добрых компьютерных игр нулевых годов, в которые не играл уже лет 10? Да, признаю, что я весьма далёк от современной VR-индустрии и её продуктов, но у меня есть генератор виртуальной реальности получше – биологический мозг.

    habr.com/ru/articles/951024/

    #виртуальная_реальность #vr #нейроинтерфейс #мультимодальные_модели #нки #нейролинк #теория_предсказательного_разума #предиктивное_кодирование #байесовский_мозг #принцип_свободной_энергии

  29. Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%

    OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime , которая объединяет распознавание речи, генерацию текста и синтез голоса в одном API. Важно и то, что использование стало заметно дешевле, а цены на аудио-токены снижены на 20%.

    habr.com/ru/articles/941888/

    #openai_api #gptrealtime #realtime #голосовые_интерфейсы #распознавание_речи #синтез_речи #мультимодальные_модели #искусственный_интеллект #интеграции #mcp

  30. Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%

    OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime , которая объединяет распознавание речи, генерацию текста и синтез голоса в одном API. Важно и то, что использование стало заметно дешевле, а цены на аудио-токены снижены на 20%.

    habr.com/ru/articles/941888/

    #openai_api #gptrealtime #realtime #голосовые_интерфейсы #распознавание_речи #синтез_речи #мультимодальные_модели #искусственный_интеллект #интеграции #mcp

  31. Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%

    OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime , которая объединяет распознавание речи, генерацию текста и синтез голоса в одном API. Важно и то, что использование стало заметно дешевле, а цены на аудио-токены снижены на 20%.

    habr.com/ru/articles/941888/

    #openai_api #gptrealtime #realtime #голосовые_интерфейсы #распознавание_речи #синтез_речи #мультимодальные_модели #искусственный_интеллект #интеграции #mcp

  32. Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%

    OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime , которая объединяет распознавание речи, генерацию текста и синтез голоса в одном API. Важно и то, что использование стало заметно дешевле, а цены на аудио-токены снижены на 20%.

    habr.com/ru/articles/941888/

    #openai_api #gptrealtime #realtime #голосовые_интерфейсы #распознавание_речи #синтез_речи #мультимодальные_модели #искусственный_интеллект #интеграции #mcp

  33. Как мы строили KidFolio — цифровую платформу для родителей и детских садов

    Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты. В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

    habr.com/ru/articles/924782/

    #компьютерное_зрение #vlm #cv #автоматизация #мультимодальные_модели #генерация_описаний #распознавание_лиц #MLпродукт

  34. Как мы строили KidFolio — цифровую платформу для родителей и детских садов

    Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты. В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

    habr.com/ru/articles/924782/

    #компьютерное_зрение #vlm #cv #автоматизация #мультимодальные_модели #генерация_описаний #распознавание_лиц #MLпродукт

  35. Как мы строили KidFolio — цифровую платформу для родителей и детских садов

    Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты. В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

    habr.com/ru/articles/924782/

    #компьютерное_зрение #vlm #cv #автоматизация #мультимодальные_модели #генерация_описаний #распознавание_лиц #MLпродукт

  36. Как мы строили KidFolio — цифровую платформу для родителей и детских садов

    Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты. В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

    habr.com/ru/articles/924782/

    #компьютерное_зрение #vlm #cv #автоматизация #мультимодальные_модели #генерация_описаний #распознавание_лиц #MLпродукт

  37. Жестовый язык: похожее в непохожем и наоборот

    Привет, Хабр! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь. Сегодня мы расскажем, как собрали один из самых больших в мире датасетов изолированного русского жестового языка Logos, чем различаются визуально одинаковые жесты, как мы с помощью нашего датасета обучили универсальную модель-энкодер и попутно заняли первую строчку в бенчмарке распознавания американского жестового языка. По итогам этой работы мы опубликовали препринт .

    habr.com/ru/companies/sberbank

    #жестовый_язык #распознавание_видео #распознавание_жестовых_языков #мультимодальные_модели

  38. Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

    Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам. Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета

    habr.com/ru/companies/oleg-bun

    #мультимодальные_модели #llm #agi #генеративный_ai #анализ_данных #chatgpt #deepseek #perplexity #обработка_аудио #генерация_видео

  39. Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

    Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть! Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok! Мы вас заинтриговали? Тогда приятного прочтения!

    habr.com/ru/companies/sberbank

    #искусственный_интеллект #генеративные_модели #редактирование_изображений #мультимодальные_модели #машинное_обучение #компьютерное_зрение #обработка_изображений #image_editing #neural_image_editing #диффузионные_модели

  40. Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

    Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть! Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok! Мы вас заинтриговали? Тогда приятного прочтения!

    habr.com/ru/companies/sberbank

    #искусственный_интеллект #генеративные_модели #редактирование_изображений #мультимодальные_модели #машинное_обучение #компьютерное_зрение #обработка_изображений #image_editing #neural_image_editing #диффузионные_модели

  41. Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

    Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть! Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok! Мы вас заинтриговали? Тогда приятного прочтения!

    habr.com/ru/companies/sberbank

    #искусственный_интеллект #генеративные_модели #редактирование_изображений #мультимодальные_модели #машинное_обучение #компьютерное_зрение #обработка_изображений #image_editing #neural_image_editing #диффузионные_модели

  42. Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

    Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть! Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok! Мы вас заинтриговали? Тогда приятного прочтения!

    habr.com/ru/companies/sberbank

    #искусственный_интеллект #генеративные_модели #редактирование_изображений #мультимодальные_модели #машинное_обучение #компьютерное_зрение #обработка_изображений #image_editing #neural_image_editing #диффузионные_модели

  43. Обзор уязвимостей для LLM. Часть 2. Защита

    В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей. Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО.

    habr.com/ru/companies/oleg-bun

    #языковые_модели #промпты #промптинъекции #owasp #защита_от_уязвимостей #jailbreak #chat_gpt #llmattack #мультимодальные_модели #PGD_Attack

  44. Задача Emotional FusionBrain 4.0: итоги и победители

    Всем привет! На связи снова лаборатория FusionBrain! В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стало частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект. Теперь пришла пора подводить итоги! Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

    habr.com/ru/companies/airi/art

    #соревнования #artificial_intelligence #natural_language_processing #deeplearning #хакатоны #хакатон #сбер #большие_языковые_модели #мультимодальные_модели #мультимодальные_данные

  45. Задача Emotional FusionBrain 4.0: итоги и победители

    Всем привет! На связи снова лаборатория FusionBrain! В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стало частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект. Теперь пришла пора подводить итоги! Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

    habr.com/ru/companies/airi/art

    #соревнования #artificial_intelligence #natural_language_processing #deeplearning #хакатоны #хакатон #сбер #большие_языковые_модели #мультимодальные_модели #мультимодальные_данные

  46. Задача Emotional FusionBrain 4.0: итоги и победители

    Всем привет! На связи снова лаборатория FusionBrain! В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стало частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект. Теперь пришла пора подводить итоги! Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

    habr.com/ru/companies/airi/art

    #соревнования #artificial_intelligence #natural_language_processing #deeplearning #хакатоны #хакатон #сбер #большие_языковые_модели #мультимодальные_модели #мультимодальные_данные

  47. Задача Emotional FusionBrain 4.0: итоги и победители

    Всем привет! На связи снова лаборатория FusionBrain! В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стало частью соревнования AI Journey Contest. Участникам предстояло разработать универсальную мультимодальную модель, которая учится понимать социальные взаимодействия людей по видео — другими словами, создать эмоциональный искусственный интеллект. Теперь пришла пора подводить итоги! Но начнём мы, конечно же, с описания задачи, чтобы уважаемые читатели оказались в едином контексте :)

    habr.com/ru/companies/airi/art

    #соревнования #artificial_intelligence #natural_language_processing #deeplearning #хакатоны #хакатон #сбер #большие_языковые_модели #мультимодальные_модели #мультимодальные_данные

  48. Защита LLM в разработке чат-ботов в корпоративной среде: как избежать утечек данных и других угроз

    Как компания, которая внедряет прикладные решения, мы хотим знать, насколько они безопасны. Расскажу про основные риски, связанные с использованием LLM в корпоративной среде, и способы от них защититься. Если вы хотите узнать больше об уязвимостях и техниках защиты LLM — можно ознакомиться с моим

    habr.com/ru/companies/raft/art

    #нейросети #мультимодальные_модели #безопасность_данных #искусственный_интеллект #машинное_обучениe #llmattack #атаки #утечки #большие_языковые_модели #бигдата

  49. Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

    Мы в лаборатории Fusion Brain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре. Мы также любим придумывать соревнования по этой теме. Так, команда Fusion Brain уже четвертый год готовит трек соревнования в рамках осенней конференции AIJ. Обычно это было соревнование, направленное на разработку мультимодальной модели для картинок и текста, а в прошлом году мы добавили аудио. В этом году мы решили пойти дальше и сместить фокус на анализ видео и аудио во взаимодействии с человеком. Назвали соответствующе — Emotional Fusion Brain 4.0. Ниже — подробности и детали соревнования.

    habr.com/ru/companies/airi/art

    #artificial_intelligence #natural_language_processing #мультимодальные_модели #большие_языковые_модели #хакатон #соревнования #хакатоны

  50. Эмоциональный и искусственный. Учим нейросети понимать социальные взаимодействия людей на AIJ Contest

    Мы в лаборатории Fusion Brain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре. Мы также любим придумывать соревнования по этой теме. Так, команда Fusion Brain уже четвертый год готовит трек соревнования в рамках осенней конференции AIJ. Обычно это было соревнование, направленное на разработку мультимодальной модели для картинок и текста, а в прошлом году мы добавили аудио. В этом году мы решили пойти дальше и сместить фокус на анализ видео и аудио во взаимодействии с человеком. Назвали соответствующе — Emotional Fusion Brain 4.0. Ниже — подробности и детали соревнования.

    habr.com/ru/companies/airi/art

    #artificial_intelligence #natural_language_processing #мультимодальные_модели #большие_языковые_модели #хакатон #соревнования #хакатоны