home.social

#chatbot_arena — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #chatbot_arena, aggregated by home.social.

  1. ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

    OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года. В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1–0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.

    habr.com/ru/companies/bothub/a

    #chatgpt_o3_pro #openai #бенчмарки #aime #gpqa #codeforces #chatbot_arena #nyt_connections #roboflow #рассуждающие_модели

  2. Leaderboard Illusion: что не так с Chatbot Arena

    Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.

    habr.com/ru/articles/906326/

    #статистика #бенчмарки_ИИ #бенчмарки #Chatbot_Arena #большие_языковые_модели #БЯМ #научные_публикации #конфликты #пиар #завышенные_ожидания