home.social

#lmarena — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #lmarena, aggregated by home.social.

  1. 🎭 Behold, the LMArena: the #AI world's favorite fake tan! 🤦‍♂️ Researchers worship this glorified popularity contest, mistaking it for the Holy Grail of AI benchmarks. Meanwhile, it offers all the scientific rigor of a supermarket tabloid. 🥴
    surgehq.ai/blog/lmarena-is-a-p #LMArena #FakeTan #PopularityContest #AIbenchmarks #ScientificRigor #HackerNews #ngated

  2. Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

    Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

    habr.com/ru/companies/bothub/a

    #chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic