#chatbot_arena — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #chatbot_arena, aggregated by home.social.
-
ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся
OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.
https://habr.com/ru/companies/bothub/articles/918690/
#chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели
-
Leaderboard Illusion: что не так с Chatbot Arena
Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.
https://habr.com/ru/articles/906326/
#статистика #бенчмарки_ИИ #бенчмарки #Chatbot_Arena #большие_языковые_модели #БЯМ #научные_публикации #конфликты #пиар #завышенные_ожидания