#lmarena — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #lmarena, aggregated by home.social.
-
https://winbuzzer.com/2026/04/06/google-study-ai-benchmarks-ignore-human-disagreement-xcxwbn/
Google Study: AI Benchmarks Use Too Few Raters to Be Reliable
#AI #Google #GoogleResearch #AIBenchmarks #AIResearch #MachineLearning #LMArena #ChatbotArena #BigTech #RochesterInstituteOfTechnology #AIEvaluation
-
🎭 Behold, the LMArena: the #AI world's favorite fake tan! 🤦♂️ Researchers worship this glorified popularity contest, mistaking it for the Holy Grail of AI benchmarks. Meanwhile, it offers all the scientific rigor of a supermarket tabloid. 🥴
https://surgehq.ai/blog/lmarena-is-a-plague-on-ai #LMArena #FakeTan #PopularityContest #AIbenchmarks #ScientificRigor #HackerNews #ngated -
Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки
Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.
https://habr.com/ru/companies/bothub/articles/976514/
#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic
-
Scale AI Launches ‘SEAL Showdown’ LLM Leaderboard - Can it Dethrone LMArena?
-
💡 Gemini 2.5 Pro: il modello IA di Google che “pensa”
https://gomoot.com/gemini-2-5-pro-il-modello-ia-di-google-che-pensa/
#blog #dataset #gemini #google #grok #llm #lmarena #modelloai #multimodale #news #openai #pensare #picks #tech #tecnologia #token