home.social

#рассуждающие_модели — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #рассуждающие_модели, aggregated by home.social.

  1. CURE-Bench: готовы ли «рассуждающие» модели стать терапевтическими ассистентами?

    В 2025 году на NeurIPS — главной мировой конференции по ИИ — прошло соревнование CURE‑Bench, организованное исследователями из Гарварда и Массачусетского Технологического Института. Целью соревнования являлась масштабная проверка способностей агентов и рассуждающих моделей в области терапевтических рекомендаций. CURE‑Bench пытается ответить на вопрос, возможно ли уже сегодня построить качественного медицинского ассистента? Команда AIRI под названием VIM (Владимир Мануйлов (iMak AI Lab) и Илья Макаров (iMak AI Lab, AIRI)) заняла призовое место в треке Internal Model Reasoning . Подробнее о их решении — в данной статье.

    habr.com/ru/companies/airi/art

    #Искусственный_интеллект #neurips #рассуждающие_модели #CUREBench

  2. CognitiveDrone: система на VLA с когнитивными способностями для управления летающим роботом в трехмерном пространстве

    VLA-модели объединяют визуальное восприятие, понимание естественного языка и выполнение физических действий. Обычно они применяются для манипуляций — например, чтобы робот взял предмет или повернул рычаг. Но управление роботом, особенно летающим, это не всегда изменение состояния — иногда это перемещение его в трехмерном пространстве. Добавление VLA-моделей в этот сегмент робототехники может дать устройствам способность мыслить и принимать решения в условиях слабой связи или полной автономности. Такой подход особенно важен для задач, где нет права на ошибку, например в спасательных миссиях. Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. Параллельно работе — аспирант в лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Сегодня расскажу, как в рамках научной работы вместе с коллегами по лаборатории мы обучили OpenVLA и создали CognitiveDrone — первую VLA-модель для летающих роботов. А также объясню, зачем мы внедрили модуль VLM и за счет чего он помог повысить качество решения когнитивных задач на 17,6%.

    habr.com/ru/companies/ru_mts/a

    #vla #когнитивная_робототехника #рассуждающие_модели #модульная_архитектура #llm #искусственный_интеллект #CognitiveDrone #CognitiveDroneBench #Physical_AI

  3. CognitiveOS: операционная система с модульной архитектурой для интеграции LLM в роботов

    Роботы развиваются — всем хочется, чтобы они стали умнее и могли размышлять, запоминать, учиться, рассуждать и кооперироваться. А еще реагировали на команды типа: «Стань в Дьюрин день у серого камня, когда прострекочет дрозд и заходящее солнце бросит последний луч на дверную скважину». Все это уже умеют LLM. Например, трансформенные модели GPT, Claude или Gemini могут принять на вход изображения, распознать и описать на них объекты — это позволяет использовать их для восприятия окружающей среды. Встроить одну или несколько LLM в робота — задача интересная и сложная. Ее можно реализовать с применением масштабируемой модульной когнитивной архитектуры. Она позволяет интегрировать новые способности через модули, которые добавляются, отключаются или апгрейдятся без необходимости переписывать систему целиком. Меня зовут Артем Лыков, я ведущий RnD-разработчик в МТС Web Services. В Лаборатории интеллектуальной космической робототехники Сколтеха мы реализовали CognitiveOS — когнитивную операционную систему для роботов. В этом материале я познакомлю вас с ней и расскажу, какие проблемы она решает, как устроена и как позволяет справляться с реальными задачами.

    habr.com/ru/companies/ru_mts/a

    #роботы #воплощенный_ии #VLA #Когнитивная_робототехника #Рассуждающие_модели #модульная_архитектура #llm #Искусственный_интеллект #SMCA #CognitiveOS

  4. «Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

    В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

    habr.com/ru/companies/ruvds/ar

    #ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

  5. «Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

    В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

    habr.com/ru/companies/ruvds/ar

    #ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

  6. «Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

    В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

    habr.com/ru/companies/ruvds/ar

    #ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

  7. «Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

    В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

    habr.com/ru/companies/ruvds/ar

    #ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

  8. Восстание машин 2025: я изучил реальные риски со стороны нейросетей

    Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать

    habr.com/ru/articles/921744/

    #искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели

  9. Восстание машин 2025: я изучил реальные риски со стороны нейросетей

    Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать

    habr.com/ru/articles/921744/

    #искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели

  10. Восстание машин 2025: я изучил реальные риски со стороны нейросетей

    Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать

    habr.com/ru/articles/921744/

    #искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели

  11. Восстание машин 2025: я изучил реальные риски со стороны нейросетей

    Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать

    habr.com/ru/articles/921744/

    #искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели

  12. ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

    OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.

    habr.com/ru/companies/bothub/a

    #chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели

  13. ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

    OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.

    habr.com/ru/companies/bothub/a

    #chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели

  14. ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

    OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.

    habr.com/ru/companies/bothub/a

    #chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели

  15. ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

    OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.

    habr.com/ru/companies/bothub/a

    #chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели