#question_answering — Public Fediverse posts on home.social

Habr @[email protected] · 2025-08-04 · 11:02 UTC

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены. Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding , принятой на ведущую конференцию по компьютерному зрению ICCV 2025. Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face . Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.

https://habr.com/ru/companies/airi/articles/926076/

#графы #llmмодели #scene_understanding #graphs #question_answering #detection #captioning #детекция_объектов

#детекция_объектов #captioning #detection #question_answering #graphs #scene_understanding

Habr @[email protected] · 2025-08-04 · 11:02 UTC

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены. Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding , принятой на ведущую конференцию по компьютерному зрению ICCV 2025. Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face . Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.

https://habr.com/ru/companies/airi/articles/926076/

#графы #llmмодели #scene_understanding #graphs #question_answering #detection #captioning #детекция_объектов

#детекция_объектов #captioning #detection #question_answering #graphs #scene_understanding

Habr @[email protected] · 2025-08-04 · 11:02 UTC

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены. Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding , принятой на ведущую конференцию по компьютерному зрению ICCV 2025. Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face . Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.

https://habr.com/ru/companies/airi/articles/926076/

#графы #llmмодели #scene_understanding #graphs #question_answering #detection #captioning #детекция_объектов

#графы #llmмодели #scene_understanding #graphs #question_answering #detection

Habr @[email protected] · 2025-03-22 · 12:02 UTC

Как я победил в RAG Challenge: от нуля до SoTA за один конкурс

Когда новичок пытается построить свою первую вопросно-ответную LLM систему, он быстро узнаёт, что базовый RAG - это для малышей и его нужно "прокачивать" модными техниками: Hybrid Search, Parent Document Retrieval, Reranking и десятки других непонятных терминов. Глаза разбегаются, наступает паралич выбора, ладошки потеют. А что, если попробовать их все? Я решил потратить на подготовку к соревнованию 200+ часов и собственноручно проверить каждую из этих методик. Получилось настолько удачно, что я выиграл конкурс во всех номинациях. Теперь рассказываю, какие техники оказались полезными, а какие нет, и как повторить мой результат.

https://habr.com/ru/articles/893356/

#RAG #Docling #векторный_поиск #retrieval_augmented_generation #question_answering #LLM #FAISS #GPT #ChatGPT #парсинг_PDF

#парсинг_pdf #chatgpt #gpt #faiss #llm #question_answering

Habr @[email protected] · 2025-03-22 · 12:02 UTC

Как я победил в RAG Challenge: от нуля до SoTA за один конкурс

Когда новичок пытается построить свою первую вопросно-ответную LLM систему, он быстро узнаёт, что базовый RAG - это для малышей и его нужно "прокачивать" модными техниками: Hybrid Search, Parent Document Retrieval, Reranking и десятки других непонятных терминов. Глаза разбегаются, наступает паралич выбора, ладошки потеют. А что, если попробовать их все? Я решил потратить на подготовку к соревнованию 200+ часов и собственноручно проверить каждую из этих методик. Получилось настолько удачно, что я выиграл конкурс во всех номинациях. Теперь рассказываю, какие техники оказались полезными, а какие нет, и как повторить мой результат.

https://habr.com/ru/articles/893356/

#RAG #Docling #векторный_поиск #retrieval_augmented_generation #question_answering #LLM #FAISS #GPT #ChatGPT #парсинг_PDF

#парсинг_pdf #chatgpt #gpt #faiss #llm #question_answering

Habr @[email protected] · 2025-03-22 · 12:02 UTC

Как я победил в RAG Challenge: от нуля до SoTA за один конкурс

Когда новичок пытается построить свою первую вопросно-ответную LLM систему, он быстро узнаёт, что базовый RAG - это для малышей и его нужно "прокачивать" модными техниками: Hybrid Search, Parent Document Retrieval, Reranking и десятки других непонятных терминов. Глаза разбегаются, наступает паралич выбора, ладошки потеют. А что, если попробовать их все? Я решил потратить на подготовку к соревнованию 200+ часов и собственноручно проверить каждую из этих методик. Получилось настолько удачно, что я выиграл конкурс во всех номинациях. Теперь рассказываю, какие техники оказались полезными, а какие нет, и как повторить мой результат.

https://habr.com/ru/articles/893356/

#RAG #Docling #векторный_поиск #retrieval_augmented_generation #question_answering #LLM #FAISS #GPT #ChatGPT #парсинг_PDF

#rag #docling #векторный_поиск #retrieval_augmented_generation #question_answering #llm

Habr @[email protected] · 2024-05-10 · 19:32 UTC

Git: Очередной лист Вопросов и Ответов

В статье я постарался затронуть базовые темы в виде вопрос/ ответ на горячо любимые темы на собеседованиях и не только.

https://habr.com/ru/articles/813513/

#git #github #gitlab #gitflow #github_flow #interview #questions #question_and_answers #question_answering

#question_answering #question_and_answers #questions #interview #github_flow #gitflow

Habr @[email protected] · 2024-05-10 · 19:32 UTC

Git: Очередной лист Вопросов и Ответов

В статье я постарался затронуть базовые темы в виде вопрос/ ответ на горячо любимые темы на собеседованиях и не только.

https://habr.com/ru/articles/813513/

#git #github #gitlab #gitflow #github_flow #interview #questions #question_and_answers #question_answering

#question_answering #question_and_answers #questions #interview #github_flow #gitflow

Habr @[email protected] · 2024-05-10 · 19:32 UTC

Git: Очередной лист Вопросов и Ответов

В статье я постарался затронуть базовые темы в виде вопрос/ ответ на горячо любимые темы на собеседованиях и не только.

https://habr.com/ru/articles/813513/

#git #github #gitlab #gitflow #github_flow #interview #questions #question_and_answers #question_answering

#git #github #gitlab #gitflow #github_flow #interview

Habr @[email protected] · 2024-02-06 · 17:22 UTC

Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем

Машинный перевод может улучшить существующие вопросно‑ответные системы (англ. Question Answering — QA), которые имеют ограниченные языковые возможности, позволяя им поддерживать несколько языков. Однако у машинного перевода есть один основной недостаток: часто такие системы не справляются с переводом именованных сущностей, которые нельзя перевести дословно. Например, немецкое название фильма «The Pope Must Die» переводится как «Ein Papst zum Küssen», что дословно означает «Папа для поцелуев». На Русском языке название фильма звучит так: «Папа должен похудеть». Поскольку правильность именованных сущностей критична для вопросно‑ответных систем, необходимо как можно лучше обеспечить правильность их перевода. В данной статье я представляю наш метод машинного перевода, учитывающий именованные сущности, под названием «Lingua Franca». Он использует графы знаний для использования хранящейся там символьной информации с целью обеспечения правильности перевода именованных сущностей. И да, это работает!

https://habr.com/ru/articles/791616/

#машинный_перевод #именованые_сущности #machine_translation #named_entities #question_answering #вопросно_ответный_поиск #графы_знаний #knowledge_graphs #information_retrieval

#information_retrieval #knowledge_graphs #графы_знаний #вопросно_ответный_поиск #question_answering #named_entities

Habr @[email protected] · 2024-02-06 · 17:22 UTC

Lingua Franca — Машинный перевод с учётом именованных сущностей для вопросно-ответных систем

Машинный перевод может улучшить существующие вопросно‑ответные системы (англ. Question Answering — QA), которые имеют ограниченные языковые возможности, позволяя им поддерживать несколько языков. Однако у машинного перевода есть один основной недостаток: часто такие системы не справляются с переводом именованных сущностей, которые нельзя перевести дословно. Например, немецкое название фильма «The Pope Must Die» переводится как «Ein Papst zum Küssen», что дословно означает «Папа для поцелуев». На Русском языке название фильма звучит так: «Папа должен похудеть». Поскольку правильность именованных сущностей критична для вопросно‑ответных систем, необходимо как можно лучше обеспечить правильность их перевода. В данной статье я представляю наш метод машинного перевода, учитывающий именованные сущности, под названием «Lingua Franca». Он использует графы знаний для использования хранящейся там символьной информации с целью обеспечения правильности перевода именованных сущностей. И да, это работает!

https://habr.com/ru/articles/791616/

#машинный_перевод #именованые_сущности #machine_translation #named_entities #question_answering #вопросно_ответный_поиск #графы_знаний #knowledge_graphs #information_retrieval

#information_retrieval #knowledge_graphs #графы_знаний #вопросно_ответный_поиск #question_answering #named_entities

Habr @[email protected] · 2024-01-26 · 15:34 UTC

Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей

Всем привет! Меня зовут Артём Важенцев , я аспирант в Сколтехе и младший научный сотрудник AIRI. Наша группа занимается исследованием и разработкой новых методов оценивания неопределенности для языковых моделей. Этим летом мы опубликовали две статьи на ACL 2023 . Про одну из них я уже рассказывал в одном из предыдущих текстов — там мы описали новый гибридный метод оценивания неопределенности для задачи выборочной классификации текстов. Другая же статья про то, как мы адаптировали современные методы оценивания неопределенности на основе скрытого представления модели для задачи генерации текста, а так же показали их высокое качество и скорость работы для задачи обнаружения примеров вне обучающего распределения. Ниже я хотел бы подробнее рассказать об используемых методах и результатах, которые мы получили.

https://habr.com/ru/companies/airi/articles/787340/

#uncertainty_estimation #natural_language_processing #machine_translation #question_answering #summarization #seq2seq

#seq2seq #summarization #question_answering #machine_translation #natural_language_processing #uncertainty_estimation

Habr @[email protected] · 2024-01-26 · 15:34 UTC

Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей

Всем привет! Меня зовут Артём Важенцев , я аспирант в Сколтехе и младший научный сотрудник AIRI. Наша группа занимается исследованием и разработкой новых методов оценивания неопределенности для языковых моделей. Этим летом мы опубликовали две статьи на ACL 2023 . Про одну из них я уже рассказывал в одном из предыдущих текстов — там мы описали новый гибридный метод оценивания неопределенности для задачи выборочной классификации текстов. Другая же статья про то, как мы адаптировали современные методы оценивания неопределенности на основе скрытого представления модели для задачи генерации текста, а так же показали их высокое качество и скорость работы для задачи обнаружения примеров вне обучающего распределения. Ниже я хотел бы подробнее рассказать об используемых методах и результатах, которые мы получили.

https://habr.com/ru/companies/airi/articles/787340/

#uncertainty_estimation #natural_language_processing #machine_translation #question_answering #summarization #seq2seq

#seq2seq #summarization #question_answering #machine_translation #natural_language_processing #uncertainty_estimation

Habr @[email protected] · 2023-11-20 · 07:22 UTC

ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI), работающей над мультимодальными подходами. В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.

https://habr.com/ru/companies/airi/articles/774934/

#ML #knowledge_graphs #chatgpt #question_answering

#question_answering #chatgpt #knowledge_graphs #ml

Habr @[email protected] · 2023-11-20 · 07:22 UTC

ChatGPT плохо отвечает на «простые вопросы». Как это починить?

Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI), работающей над мультимодальными подходами. В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе для поиска ответов на фактологические вопросы, которая по своей точности обходит даже ChatGPT.

https://habr.com/ru/companies/airi/articles/774934/

#ML #knowledge_graphs #chatgpt #question_answering

#question_answering #chatgpt #knowledge_graphs #ml