#рассуждающие_модели — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #рассуждающие_модели, aggregated by home.social.
-
CURE-Bench: готовы ли «рассуждающие» модели стать терапевтическими ассистентами?
В 2025 году на NeurIPS — главной мировой конференции по ИИ — прошло соревнование CURE‑Bench, организованное исследователями из Гарварда и Массачусетского Технологического Института. Целью соревнования являлась масштабная проверка способностей агентов и рассуждающих моделей в области терапевтических рекомендаций. CURE‑Bench пытается ответить на вопрос, возможно ли уже сегодня построить качественного медицинского ассистента? Команда AIRI под названием VIM (Владимир Мануйлов (iMak AI Lab) и Илья Макаров (iMak AI Lab, AIRI)) заняла призовое место в треке Internal Model Reasoning . Подробнее о их решении — в данной статье.
https://habr.com/ru/companies/airi/articles/974814/
#Искусственный_интеллект #neurips #рассуждающие_модели #CUREBench
-
CognitiveDrone: система на VLA с когнитивными способностями для управления летающим роботом в трехмерном пространстве
VLA-модели объединяют визуальное восприятие, понимание естественного языка и выполнение физических действий. Обычно они применяются для манипуляций — например, чтобы робот взял предмет или повернул рычаг. Но управление роботом, особенно летающим, это не всегда изменение состояния — иногда это перемещение его в трехмерном пространстве. Добавление VLA-моделей в этот сегмент робототехники может дать устройствам способность мыслить и принимать решения в условиях слабой связи или полной автономности. Такой подход особенно важен для задач, где нет права на ошибку, например в спасательных миссиях. Я Артем Лыков, ведущий RnD-разработчик в МТС Web Services. Параллельно работе — аспирант в лаборатории интеллектуальной космической робототехники Сколтеха (руководитель Дмитрий Тетерюков), где лидирую направление когнитивной робототехники. Сегодня расскажу, как в рамках научной работы вместе с коллегами по лаборатории мы обучили OpenVLA и создали CognitiveDrone — первую VLA-модель для летающих роботов. А также объясню, зачем мы внедрили модуль VLM и за счет чего он помог повысить качество решения когнитивных задач на 17,6%.
https://habr.com/ru/companies/ru_mts/articles/973554/
#vla #когнитивная_робототехника #рассуждающие_модели #модульная_архитектура #llm #искусственный_интеллект #CognitiveDrone #CognitiveDroneBench #Physical_AI
-
CognitiveOS: операционная система с модульной архитектурой для интеграции LLM в роботов
Роботы развиваются — всем хочется, чтобы они стали умнее и могли размышлять, запоминать, учиться, рассуждать и кооперироваться. А еще реагировали на команды типа: «Стань в Дьюрин день у серого камня, когда прострекочет дрозд и заходящее солнце бросит последний луч на дверную скважину». Все это уже умеют LLM. Например, трансформенные модели GPT, Claude или Gemini могут принять на вход изображения, распознать и описать на них объекты — это позволяет использовать их для восприятия окружающей среды. Встроить одну или несколько LLM в робота — задача интересная и сложная. Ее можно реализовать с применением масштабируемой модульной когнитивной архитектуры. Она позволяет интегрировать новые способности через модули, которые добавляются, отключаются или апгрейдятся без необходимости переписывать систему целиком. Меня зовут Артем Лыков, я ведущий RnD-разработчик в МТС Web Services. В Лаборатории интеллектуальной космической робототехники Сколтеха мы реализовали CognitiveOS — когнитивную операционную систему для роботов. В этом материале я познакомлю вас с ней и расскажу, какие проблемы она решает, как устроена и как позволяет справляться с реальными задачами.
https://habr.com/ru/companies/ru_mts/articles/932310/
#роботы #воплощенный_ии #VLA #Когнитивная_робототехника #Рассуждающие_модели #модульная_архитектура #llm #Искусственный_интеллект #SMCA #CognitiveOS
-
«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций
В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .
https://habr.com/ru/companies/ruvds/articles/920924/
#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought
-
«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций
В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .
https://habr.com/ru/companies/ruvds/articles/920924/
#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought
-
«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций
В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .
https://habr.com/ru/companies/ruvds/articles/920924/
#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought
-
«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций
В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос . И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда .
https://habr.com/ru/companies/ruvds/articles/920924/
#ruvds_статьи #LLM #галлюцинации #языковые_модели #дезинформация #функция_рассуждения #LRM #рассуждающие_модели #Claude_37_Sonnet #DeepSeekR1 #антропоморфизация #ChainofThought
-
Восстание машин 2025: я изучил реальные риски со стороны нейросетей
Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать
https://habr.com/ru/articles/921744/
#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели
-
Восстание машин 2025: я изучил реальные риски со стороны нейросетей
Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать
https://habr.com/ru/articles/921744/
#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели
-
Восстание машин 2025: я изучил реальные риски со стороны нейросетей
Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать
https://habr.com/ru/articles/921744/
#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели
-
Восстание машин 2025: я изучил реальные риски со стороны нейросетей
Сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин». Начну с двух интересных кейсов о том, как нейросети спорили со своими операторами. Читать
https://habr.com/ru/articles/921744/
#искусственный_интеллект #безопасность #восстание_машин #прогноз #будущее_рядом #нейросети #угроза_человечеству #угрозы_настоящего_и_будущего #рассуждения #рассуждающие_модели
-
ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся
OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.
https://habr.com/ru/companies/bothub/articles/918690/
#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели
-
ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся
OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.
https://habr.com/ru/companies/bothub/articles/918690/
#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели
-
ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся
OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.
https://habr.com/ru/companies/bothub/articles/918690/
#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели
-
ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся
OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.
https://habr.com/ru/companies/bothub/articles/918690/
#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели