#рассуждающие_модели — Public Fediverse posts on home.social

Habr @[email protected] · 2025-12-09 · 09:42 UTC

CURE-Bench: готовы ли «рассуждающие» модели стать терапевтическими ассистентами?

В 2025 году на NeurIPS — главной мировой конференции по ИИ — прошло соревнование CURE‑Bench, организованное исследователями из Гарварда и Массачусетского Технологического Института. Целью соревнования являлась масштабная проверка способностей агентов и рассуждающих моделей в области терапевтических рекомендаций. CURE‑Bench пытается ответить на вопрос, возможно ли уже сегодня построить качественного медицинского ассистента? Команда AIRI под названием VIM (Владимир Мануйлов (iMak AI Lab) и Илья Макаров (iMak AI Lab, AIRI)) заняла призовое место в треке Internal Model Reasoning . Подробнее о их решении — в данной статье.

https://habr.com/ru/companies/airi/articles/974814/

#Искусственный_интеллект #neurips #рассуждающие_модели #CUREBench

#искусственный_интеллект #neurips #рассуждающие_модели #curebench

Habr @[email protected] · 2025-12-09 · 07:12 UTC

CognitiveDrone: система на VLA с когнитивными способностями для управления летающим роботом в трехмерном пространстве

VLA-модели объединяют визуальное восприятие, понимание естественного языка и выполнение физических действий. Обычно они применяются для манипуляций — например, чтобы робот взял предмет или повернул рычаг. Но управление роботом, особенно летающим, это не всегда изменение состояния — иногда это перемещение его в трехмерном пространстве. Добавление VLA-моделей в этот сегмент робототехники может дать устройствам способность мыслить и принимать решения в условиях слабой связи или полной автономности. Такой подход особенно важен для задач, где нет права на ошибку, например в спасательных миссиях. Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. Параллельно работе — аспирант в лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Сегодня расскажу, как в рамках научной работы вместе с коллегами по лаборатории мы обучили OpenVLA и создали CognitiveDrone — первую VLA-модель для летающих роботов. А также объясню, зачем мы внедрили модуль VLM и за счет чего он помог повысить качество решения когнитивных задач на 17,6%.

https://habr.com/ru/companies/ru_mts/articles/973554/

#vla #когнитивная_робототехника #рассуждающие_модели #модульная_архитектура #llm #искусственный_интеллект #CognitiveDrone #CognitiveDroneBench #Physical_AI

#vla #когнитивная_робототехника #рассуждающие_модели #модульная_архитектура #llm #искусственный_интеллект

Habr @[email protected] · 2025-07-31 · 11:02 UTC

CognitiveOS: операционная система с модульной архитектурой для интеграции LLM в роботов

Роботы развиваются — всем хочется, чтобы они стали умнее и могли размышлять, запоминать, учиться, рассуждать и кооперироваться. А еще реагировали на команды типа: «Стань в Дьюрин день у серого камня, когда прострекочет дрозд и заходящее солнце бросит последний луч на дверную скважину». Все это уже умеют LLM. Например, трансформенные модели GPT, Claude или Gemini могут принять на вход изображения, распознать и описать на них объекты — это позволяет использовать их для восприятия окружающей среды. Встроить одну или несколько LLM в робота — задача интересная и сложная. Ее можно реализовать с применением масштабируемой модульной когнитивной архитектуры. Она позволяет интегрировать новые способности через модули, которые добавляются, отключаются или апгрейдятся без необходимости переписывать систему целиком. Меня зовут Артем Лыков, я ведущий RnD-разработчик в МТС Web Services. В Лаборатории интеллектуальной космической робототехники Сколтеха мы реализовали CognitiveOS — когнитивную операционную систему для роботов. В этом материале я познакомлю вас с ней и расскажу, какие проблемы она решает, как устроена и как позволяет справляться с реальными задачами.

https://habr.com/ru/companies/ru_mts/articles/932310/

#роботы #воплощенный_ии #VLA #Когнитивная_робототехника #Рассуждающие_модели #модульная_архитектура #llm #Искусственный_интеллект #SMCA #CognitiveOS

#cognitiveos #smca #искусственный_интеллект #llm #модульная_архитектура #рассуждающие_модели

Habr @[email protected] · 2025-06-30 · 11:42 UTC

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

https://habr.com/ru/companies/ruvds/articles/920924/

#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

#ruvds_статьи #llm #галлюцинации #языковые_модели #дезинформация #функция_рассуждения

Habr @[email protected] · 2025-06-30 · 11:42 UTC

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

https://habr.com/ru/companies/ruvds/articles/920924/

#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

#ruvds_статьи #llm #галлюцинации #языковые_модели #дезинформация #функция_рассуждения

Habr @[email protected] · 2025-06-30 · 11:42 UTC

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

https://habr.com/ru/companies/ruvds/articles/920924/

#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

#ruvds_статьи #llm #галлюцинации #языковые_модели #дезинформация #функция_рассуждения

Habr @[email protected] · 2025-06-30 · 11:42 UTC

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .

https://habr.com/ru/companies/ruvds/articles/920924/

#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought

#chainofthought #антропоморфизация #deepseekr1 #claude_37_sonnet #рассуждающие_модели #lrm

Habr @[email protected] · 2025-06-26 · 09:32 UTC

Восстание машин 2025: я изучил реальные риски со стороны нейросетей

Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать

https://habr.com/ru/articles/921744/

#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели

#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети

Habr @[email protected] · 2025-06-26 · 09:32 UTC

Восстание машин 2025: я изучил реальные риски со стороны нейросетей

Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать

https://habr.com/ru/articles/921744/

#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели

#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети

Habr @[email protected] · 2025-06-26 · 09:32 UTC

Восстание машин 2025: я изучил реальные риски со стороны нейросетей

Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать

https://habr.com/ru/articles/921744/

#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели

#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети

Habr @[email protected] · 2025-06-26 · 09:32 UTC

Восстание машин 2025: я изучил реальные риски со стороны нейросетей

Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать

https://habr.com/ru/articles/921744/

#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели

#рассуждающие_модели #рассуждения #угрозы_настоящего_и_будущего #угроза_человечеству #нейросети #будущее_рядом

Habr @[email protected] · 2025-06-16 · 09:12 UTC

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.

https://habr.com/ru/companies/bothub/articles/918690/

#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели

#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces

Habr @[email protected] · 2025-06-16 · 09:12 UTC

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.

https://habr.com/ru/companies/bothub/articles/918690/

#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели

#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces

Habr @[email protected] · 2025-06-16 · 09:12 UTC

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.

https://habr.com/ru/companies/bothub/articles/918690/

#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели

#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces

Habr @[email protected] · 2025-06-16 · 09:12 UTC

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.

https://habr.com/ru/companies/bothub/articles/918690/

#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели

#рассуждающие_модели #roboflow #nyt_connections #chatbot_arena #codeforces #gpqa