#lmarena — Public Fediverse posts on home.social

Winbuzzer @[email protected] · 2026-04-06 · 12:43 UTC

https://winbuzzer.com/2026/04/06/google-study-ai-benchmarks-ignore-human-disagreement-xcxwbn/

Google Study: AI Benchmarks Use Too Few Raters to Be Reliable

#AI #Google #GoogleResearch #AIBenchmarks #AIResearch #MachineLearning #LMArena #ChatbotArena #BigTech #RochesterInstituteOfTechnology #AIEvaluation

#ai #google #googleresearch #aibenchmarks #airesearch #machinelearning

Winbuzzer @[email protected] · 2026-04-06 · 12:43 UTC

https://winbuzzer.com/2026/04/06/google-study-ai-benchmarks-ignore-human-disagreement-xcxwbn/

Google Study: AI Benchmarks Use Too Few Raters to Be Reliable

#AI #Google #GoogleResearch #AIBenchmarks #AIResearch #MachineLearning #LMArena #ChatbotArena #BigTech #RochesterInstituteOfTechnology #AIEvaluation

#ai #google #googleresearch #aibenchmarks #airesearch #machinelearning

Winbuzzer @[email protected] · 2026-04-06 · 12:43 UTC

https://winbuzzer.com/2026/04/06/google-study-ai-benchmarks-ignore-human-disagreement-xcxwbn/

Google Study: AI Benchmarks Use Too Few Raters to Be Reliable

#AI #Google #GoogleResearch #AIBenchmarks #AIResearch #MachineLearning #LMArena #ChatbotArena #BigTech #RochesterInstituteOfTechnology #AIEvaluation

#ai #google #googleresearch #aibenchmarks #airesearch #machinelearning

Winbuzzer @[email protected] · 2026-04-06 · 12:43 UTC

https://winbuzzer.com/2026/04/06/google-study-ai-benchmarks-ignore-human-disagreement-xcxwbn/

Google Study: AI Benchmarks Use Too Few Raters to Be Reliable

#AI #Google #GoogleResearch #AIBenchmarks #AIResearch #MachineLearning #LMArena #ChatbotArena #BigTech #RochesterInstituteOfTechnology #AIEvaluation

#ai #google #googleresearch #aibenchmarks #airesearch #machinelearning

Mr. Will @[email protected] · 2026-01-31 · 18:41 UTC

LMArena has been renamed Arena, with a UI refresh.

https://arena.ai/blog/lmarena-is-now-arena/

#lmarena

Mr. Will @[email protected] · 2026-01-31 · 18:41 UTC

LMArena has been renamed Arena, with a UI refresh.

https://arena.ai/blog/lmarena-is-now-arena/

#lmarena

Andreas Becker @[email protected] · 2026-01-22 · 17:31 UTC

2,4 Billionen Parameter: Baidus Ernie 5.0 schiebt sich im LMArena-Ranking auf Platz 8. Das Modell übertrifft mit einem Score von 1459 knapp OpenAIs GPT-5.1. Technisch setzt Baidu auf native Multimodalität und verarbeitet Bild- und Textinformationen im selben Kontextraum. Trotz US-Sanktionen verkleinert sich der Abstand zu Spitzenreitern wie Googles Gemini-3-pro drastisch. #Baidu #Ernie5 #LMArena
https://www.all-ai.de/news/news26top/ernie-5-top

#baidu #ernie5 #lmarena

Andreas Becker @[email protected] · 2026-01-22 · 17:31 UTC

2,4 Billionen Parameter: Baidus Ernie 5.0 schiebt sich im LMArena-Ranking auf Platz 8. Das Modell übertrifft mit einem Score von 1459 knapp OpenAIs GPT-5.1. Technisch setzt Baidu auf native Multimodalität und verarbeitet Bild- und Textinformationen im selben Kontextraum. Trotz US-Sanktionen verkleinert sich der Abstand zu Spitzenreitern wie Googles Gemini-3-pro drastisch. #Baidu #Ernie5 #LMArena
https://www.all-ai.de/news/news26top/ernie-5-top

#baidu #ernie5 #lmarena

The News Lens @[email protected] · 2026-01-19 · 03:44 UTC

Google官方揭AI工具「Nano Banana」命名內幕，靈感來自產品經理的暱稱

julia 2026-01-19 11:16:00 CST

Google AI圖像工具「Nano Banana」命名，源於產品經理深夜臨時的戲稱，結合其暱稱「Nano」與「Banana」。此代號因模型廣受歡迎而沿用至今。
https://www.thenewslens.com/article/263741
#LMArena #Nano Banana名稱由來 #Google #Gemini 2.5 Flash Image #科技 #Nano Banana #奈米香蕉 #AI圖像生成與編輯工具 #Google官方部落格 #AI模型 #圖像生成 #命名由來 #生成式AI

#lmarena #nano #google #gemini #科技 #奈米香蕉

N-gated Hacker News @[email protected] · 2026-01-07 · 21:45 UTC

🎭 Behold, the LMArena: the #AI world's favorite fake tan! 🤦‍♂️ Researchers worship this glorified popularity contest, mistaking it for the Holy Grail of AI benchmarks. Meanwhile, it offers all the scientific rigor of a supermarket tabloid. 🥴
https://surgehq.ai/blog/lmarena-is-a-plague-on-ai #LMArena #FakeTan #PopularityContest #AIbenchmarks #ScientificRigor #HackerNews #ngated

#ai #lmarena #faketan #popularitycontest #aibenchmarks #scientificrigor

N-gated Hacker News @[email protected] · 2026-01-07 · 21:45 UTC

🎭 Behold, the LMArena: the #AI world's favorite fake tan! 🤦‍♂️ Researchers worship this glorified popularity contest, mistaking it for the Holy Grail of AI benchmarks. Meanwhile, it offers all the scientific rigor of a supermarket tabloid. 🥴
https://surgehq.ai/blog/lmarena-is-a-plague-on-ai #LMArena #FakeTan #PopularityContest #AIbenchmarks #ScientificRigor #HackerNews #ngated

#ai #lmarena #faketan #popularitycontest #aibenchmarks #scientificrigor

N-gated Hacker News @[email protected] · 2026-01-07 · 21:45 UTC

🎭 Behold, the LMArena: the #AI world's favorite fake tan! 🤦‍♂️ Researchers worship this glorified popularity contest, mistaking it for the Holy Grail of AI benchmarks. Meanwhile, it offers all the scientific rigor of a supermarket tabloid. 🥴
https://surgehq.ai/blog/lmarena-is-a-plague-on-ai #LMArena #FakeTan #PopularityContest #AIbenchmarks #ScientificRigor #HackerNews #ngated

#ngated #hackernews #scientificrigor #aibenchmarks #popularitycontest #faketan

N-gated Hacker News @[email protected] · 2026-01-07 · 21:45 UTC

🎭 Behold, the LMArena: the #AI world's favorite fake tan! 🤦‍♂️ Researchers worship this glorified popularity contest, mistaking it for the Holy Grail of AI benchmarks. Meanwhile, it offers all the scientific rigor of a supermarket tabloid. 🥴
https://surgehq.ai/blog/lmarena-is-a-plague-on-ai #LMArena #FakeTan #PopularityContest #AIbenchmarks #ScientificRigor #HackerNews #ngated

#ai #lmarena #faketan #popularitycontest #aibenchmarks #scientificrigor

Hacker News @[email protected] · 2026-01-07 · 21:45 UTC

LMArena is a cancer on AI

https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

#HackerNews #LMArena #AI #cancer #controversy #critique #debate #technology

#ai #cancer #controversy #critique #hackernews #lmarena

Hacker News @[email protected] · 2026-01-07 · 21:45 UTC

LMArena is a cancer on AI

https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

#HackerNews #LMArena #AI #cancer #controversy #critique #debate #technology

#ai #cancer #controversy #critique #hackernews #lmarena

Hacker News @[email protected] · 2026-01-07 · 21:45 UTC

LMArena is a cancer on AI

https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

#HackerNews #LMArena #AI #cancer #controversy #critique #debate #technology

#ai #cancer #controversy #critique #hackernews #lmarena

Hacker News @[email protected] · 2026-01-07 · 21:45 UTC

LMArena is a cancer on AI

https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

#HackerNews #LMArena #AI #cancer #controversy #critique #debate #technology

#technology #debate #lmarena #hackernews #critique #controversy

Hacker News @[email protected] · 2026-01-07 · 21:45 UTC

LMArena is a cancer on AI

https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

#HackerNews #LMArena #AI #cancer #controversy #critique #debate #technology

#ai #cancer #controversy #critique #hackernews #lmarena

Reddit Tech VN Bot @[email protected] · 2025-12-30 · 19:18 UTC

Minimax-M2.1 vươn lên vị trí #1 mô hình mã nguồn mở trên bảng xếp hạng WebDev và #6 chung cuộc (1445 điểm), ngang bằng với GLM-4.7 trong bản đánh giá mới nhất từ Code Arena. Các mô hình được thử nghiệm qua khả năng tạo website, ứng dụng, trò chơi từ một prompt duy nhất. #AI #Minimax #GLM #WebDev #CodeArena #TríTuệNhânTạo #MãNguồnMở #LMArena

https://www.reddit.com/r/singularity/comments/1pzq0c3/lmarena_minimaxm21_ranks_1_open_model_on_webdev/

#ai #minimax #glm #webdev #codearena #trituệnhantạo

Reddit Tech VN Bot @[email protected] · 2025-12-17 · 06:15 UTC

GPT-5.2-high xếp hạng 12 trên bảng LMArena, dưới GPT-5.1-high (hạng 6). Dựng bởi Reddit/X. #AI #GPT #LMArena #CôngNghệ #TríTuệNhânTạo #MáyHọc

https://www.reddit.com/r/singularity/comments/1poob4m/gpt52high_scores_12_on_lmarena_underperforming/

#ai #gpt #lmarena #congnghệ #trituệnhantạo #mayhọc

Reddit Tech VN Bot @[email protected] · 2025-12-16 · 13:20 UTC

Khi sử dụng LMarena để tạo ảnh, bạn gặp lỗi lặp đi lặp lại và không biết cách khắc phục? Nhiều lần thử đều thất bại, hãy cùng tìm giải pháp! #LMarena #error #LocalLLaMA #sửachửa #lỗi

https://www.reddit.com/r/LocalLLaMA/comments/1po1mju/what_should_i_do_if_when_i_want_to_generate_an/

#lmarena #error #localllama #sửachửa #lỗi

Reddit Tech VN Bot @[email protected] · 2025-12-15 · 10:15 UTC

LM Arena giới hạn tốc độ sử dụng model? Cư dân mạng dậy sóng vì "quá phản cảm"! #lmarena #locthongtin #ai #machinelearning #LMrate #thungan #thaihocmay

(submitted từ Reddit - LocalLLaMA)

https://www.reddit.com/r/LocalLLaMA/comments/1pn2wrz/this_is_so_outrageous_lmarena/

#lmarena #locthongtin #ai #machinelearning #lmrate #thungan

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#garlic #сундар_пичай #код_красный #мультимодальность #aime #humanitys_last_exam

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#garlic #сундар_пичай #код_красный #мультимодальность #aime #humanitys_last_exam

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#garlic #сундар_пичай #код_красный #мультимодальность #aime #humanitys_last_exam

Habr @[email protected] · 2025-12-14 · 14:32 UTC

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro. Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах. Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу». Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

https://habr.com/ru/companies/bothub/articles/976514/

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime #мультимодальность #код_красный #сундар_пичай #garlic

#chatgpt_52 #gemini_3_pro #бенчмарки #lmarena #humanitys_last_exam #aime

Reddit Tech VN Bot @[email protected] · 2025-12-11 · 14:16 UTC

Google vừa thử nghiệm 2 mẫu Gemini mới "Ghostfalcon" và "Fiercefalcon" trên nền tảng LmArena theo bài đăng Reddit. Hiện chưa có thông tin chi tiết về hiệu năng của chúng.

#GoogleGemini #LmArena #AI #Google #TríTuệNhânTạo #AI

https://www.reddit.com/r/singularity/comments/1pjx9xs/2_new_google_gemini_models_ghostfalcon_and/

#googlegemini #lmarena #ai #google #trituệnhantạo

Der Wahlberliner @[email protected] · 2025-12-05 · 17:46 UTC

Aus der LLMArena: Champions, Herausforderer, Auf- und Absteiger: Das KI-Wettrennen ist noch ganz offen (Statista + KI-Recherche) #Google #X #OpenAI #Anthropic #GoogleGemini #Grok #ChatGPT #Claude #LLMArena #LMArena #AI #KI #LLM #OpenRace #Benchmark

https://derwahlberliner.com/2025/12/05/aus-der-llmarena-champions-herausforderer-auf-und-absteiger-das-ki-wettrennen-ist-noch-ganz-offen-statista-ki-recherche/

#google #x #openai #anthropic #googlegemini #grok

Der Wahlberliner @[email protected] · 2025-12-05 · 17:46 UTC

Aus der LLMArena: Champions, Herausforderer, Auf- und Absteiger: Das KI-Wettrennen ist noch ganz offen (Statista + KI-Recherche) #Google #X #OpenAI #Anthropic #GoogleGemini #Grok #ChatGPT #Claude #LLMArena #LMArena #AI #KI #LLM #OpenRace #Benchmark

https://derwahlberliner.com/2025/12/05/aus-der-llmarena-champions-herausforderer-auf-und-absteiger-das-ki-wettrennen-ist-noch-ganz-offen-statista-ki-recherche/

#google #x #openai #anthropic #googlegemini #grok

Der Wahlberliner @[email protected] · 2025-12-05 · 17:46 UTC

Aus der LLMArena: Champions, Herausforderer, Auf- und Absteiger: Das KI-Wettrennen ist noch ganz offen (Statista + KI-Recherche) #Google #X #OpenAI #Anthropic #GoogleGemini #Grok #ChatGPT #Claude #LLMArena #LMArena #AI #KI #LLM #OpenRace #Benchmark

https://derwahlberliner.com/2025/12/05/aus-der-llmarena-champions-herausforderer-auf-und-absteiger-das-ki-wettrennen-ist-noch-ganz-offen-statista-ki-recherche/

#google #x #openai #anthropic #googlegemini #grok

Der Wahlberliner @[email protected] · 2025-12-05 · 17:46 UTC

Aus der LLMArena: Champions, Herausforderer, Auf- und Absteiger: Das KI-Wettrennen ist noch ganz offen (Statista + KI-Recherche) #Google #X #OpenAI #Anthropic #GoogleGemini #Grok #ChatGPT #Claude #LLMArena #LMArena #AI #KI #LLM #OpenRace #Benchmark

https://derwahlberliner.com/2025/12/05/aus-der-llmarena-champions-herausforderer-auf-und-absteiger-das-ki-wettrennen-ist-noch-ganz-offen-statista-ki-recherche/

#benchmark #openrace #llm #ki #ai #lmarena

Der Wahlberliner @[email protected] · 2025-12-05 · 17:46 UTC

Aus der LLMArena: Champions, Herausforderer, Auf- und Absteiger: Das KI-Wettrennen ist noch ganz offen (Statista + KI-Recherche) #Google #X #OpenAI #Anthropic #GoogleGemini #Grok #ChatGPT #Claude #LLMArena #LMArena #AI #KI #LLM #OpenRace #Benchmark

https://derwahlberliner.com/2025/12/05/aus-der-llmarena-champions-herausforderer-auf-und-absteiger-das-ki-wettrennen-ist-noch-ganz-offen-statista-ki-recherche/

#google #x #openai #anthropic #googlegemini #grok

Reddit Tech VN Bot @[email protected] · 2025-11-28 · 18:16 UTC

Claude Opus 4.5 vừa giành "Triple Crown" trên LMArena, vượt Gemini 3 Pro ở các hạng mục quan trọng như Expert Arena, WebDev và Toán. Điều này cho thấy Claude Opus 4.5 được tối ưu cho công việc hơn là đàm thoại. Gemini 3 Pro vẫn mạnh về chat, nhưng Claude đang dẫn đầu trong các tác vụ chuyên sâu.

#ClaudeOpus #AI #LMArena #Gemini3Pro #TríTuệNhânTạo #CôngNghệ

https://www.reddit.com/r/singularity/comments/1p9069f/lmarena_update_claude_opus_45_wins_the_triple/

#claudeopus #ai #lmarena #gemini3pro #trituệnhantạo #congnghệ

Reddit Tech VN Bot @[email protected] · 2025-11-28 · 17:25 UTC

Claude Opus 4.5 vừa giành "Triple Crown" trên LMArena, vượt Gemini 3 Pro ở Expert Arena, WebDev và Toán học. Dù Gemini 3 Pro vẫn mạnh về trò chuyện, Claude Opus 4.5 chứng tỏ là "vua" mới cho công việc và nâng cấp hệ thống với khả năng tư duy sâu (thinking-32k).

#ClaudeOpus #LMArena #AI #GeminiPro #LLM #ThongMinhNhanTao #XepHangAI

https://www.reddit.com/r/singularity/comments/1p9069f/lmarena_update_claude_opus_45_wins_the_triple/

#claudeopus #lmarena #ai #geminipro #llm #thongminhnhantao

PressMind Labs @[email protected] · 2025-11-24 · 15:07 UTC

Gemini 3 od Google zmienia zasady gry w AI – triumf czy chwilowy hype?

„Holy shit. ” – tak zareagował Marc Benioff, szef Salesforce.

Czytaj dalej:
https://pressmind.org/gemini-3-od-google-zmienia-zasady-gry-w-ai-triumf-czy-chwilowy-hype/

#PressMindLabs #deepmind #gemini3 #google #googlesearch #lmarena

#pressmindlabs #deepmind #gemini3 #google #googlesearch #lmarena

Polska @[email protected] · 2025-11-20 · 14:55 UTC

https://www.europesays.com/pl/110486/ Nowy model Google Gemini 3 Pro przewyższa GPT-5.1 w benchmarkach rozumowania i generowania kodu front-end #AgentyczneKodowanie #AntigravityIDE #ARCAGI2 #BenchmarkiAI #ClaudeSonnet4.5 #Gemini3DeepThink #Gemini3Pro #GoogleAi #GoogleDeepMind #GPT5.1 #LMArena #MultimodalnośćAI #Nauka #NaukaITechnika #NaukaTechnika #PL #Poland #Polish #Polska #Polski #Science #ScienceAndTechnology #ScienceTechnology #SztucznaInteligencja #Technika #Technology

#technology #technika #sztucznainteligencja #sciencetechnology #scienceandtechnology #science

Agnieszka Serafinowicz @[email protected] · 2025-11-19 · 14:00 UTC

Grok 4.1 oficjalnie. xAI stawia na empatię i tryb „tensorowy”, ale król jest już inny

Wyścig zbrojeń AI nie zwalnia ani na moment. Można stwierdzić, że niemal jednocześnie z debiutem modelu Gemini 3.0 od Google’a, firma xAI Elona Muska zaprezentowała swój najnowszy model – Grok 4.1. Twórcy chwalą się, że jest liderem rankingów, ale… te dane już się zdezaktualizowały.

Grok 4.1 to ewolucja, a nie rewolucja, podobnie jak OpenAI przy przejściu z GPT-5 na GPT5.1. Podczas gdy Google przeskoczyło z wersji 2.5 na 3.0, xAI, tak jak i OpenAI stawia na optymalizację, a nie nową generację modelu.

Panowanie trwało chwilę. Gemini 3.0 górą

Wyniki opublikowane prze xAI ukazały się krótko przed prezentacją Google’a z Gemini 3.0. Według danych firmy Elona Muska, w prestiżowym rankingu LMArena (Chatbot Arena) nowy Grok 4.1 zajął pierwsze miejsce z wynikiem 1483 punktów Elo. Owszem, prześcignął Gemini 2.5 Pro, ale nie zajmuje już pierwszego miejsca.

Nie ulega wątpliwości, że jest to wciąż imponujący wynik, ale – jak informowaliśmy rano – debiutujący niemal równolegle Gemini 3.0 Pro (dokładniej Gemini 3.0 pojawiło się nieznacznie później niż Grok 4.1) osiągnął w tym samym teście 1501 punktów. Grok 4.1 jest więc potężny i wyprzedza dotychczasową czołówkę, ale na ten moment musi uznać wyższość nowej technologii Google.

Co nowego? Empatia i dwa tryby myślenia

Główny nacisk w wersji 4.1 położono na „osobowość”. Model ma lepiej rozpoznawać intencje, być bardziej empatyczny i utrzymywać spójny charakter rozmówcy. Potwierdzają to testy EQ-Bench, gdzie Grok wykazuje się zdolnością do „oceny emocji użytkownika”.

Ciekawostką techniczną jest podział na dwa tryby:

Thinking (myślący): pełna moc obliczeniowa, wysokie wyniki w testach logicznych.
Tensor: tryb natychmiastowy, który nie używa „tokenów myślenia”.

Co imponujące, nawet w tym szybkim trybie Grok 4.1 osiąga 1465 punktów Elo, wyprzedzając wiele modeli „myślących” starszej generacji.

Kreatywność i mniej „halucynacji”

W testach kreatywnego pisania (Creative Writing v3) Grok 4.1 zajął drugie miejsce, tuż za wczesną wersją GPT-5.1. Ale i te dane mogą już być nieaktualne, ze względu na wyniki Gemini 3.0, co nie znaczy jednak że nowy Grok nie imponuje. Warto zaznaczyć, że xAI chwali się również znaczącą redukcją halucynacji (zmyślania faktów), co osiągnięto dzięki nowym technikom treningowym. Model jest już dostępny w wersji testowej dla ograniczonej grupy użytkowników. Także dla tych, którzy korzystają z Groka bezpłatnie.

#elonMusk #gemini30 #grok41 #lmarena #news #rankingAi #sztucznaInteligencja #xai

#elonmusk #gemini30 #grok41 #lmarena #news #rankingai

Agnieszka Serafinowicz @[email protected] · 2025-11-19 · 14:00 UTC

Grok 4.1 oficjalnie. xAI stawia na empatię i tryb „tensorowy”, ale król jest już inny

Wyścig zbrojeń AI nie zwalnia ani na moment. Można stwierdzić, że niemal jednocześnie z debiutem modelu Gemini 3.0 od Google’a, firma xAI Elona Muska zaprezentowała swój najnowszy model – Grok 4.1. Twórcy chwalą się, że jest liderem rankingów, ale… te dane już się zdezaktualizowały.

Grok 4.1 to ewolucja, a nie rewolucja, podobnie jak OpenAI przy przejściu z GPT-5 na GPT5.1. Podczas gdy Google przeskoczyło z wersji 2.5 na 3.0, xAI, tak jak i OpenAI stawia na optymalizację, a nie nową generację modelu.

Panowanie trwało chwilę. Gemini 3.0 górą

Wyniki opublikowane prze xAI ukazały się krótko przed prezentacją Google’a z Gemini 3.0. Według danych firmy Elona Muska, w prestiżowym rankingu LMArena (Chatbot Arena) nowy Grok 4.1 zajął pierwsze miejsce z wynikiem 1483 punktów Elo. Owszem, prześcignął Gemini 2.5 Pro, ale nie zajmuje już pierwszego miejsca.

Nie ulega wątpliwości, że jest to wciąż imponujący wynik, ale – jak informowaliśmy rano – debiutujący niemal równolegle Gemini 3.0 Pro (dokładniej Gemini 3.0 pojawiło się nieznacznie później niż Grok 4.1) osiągnął w tym samym teście 1501 punktów. Grok 4.1 jest więc potężny i wyprzedza dotychczasową czołówkę, ale na ten moment musi uznać wyższość nowej technologii Google.

Co nowego? Empatia i dwa tryby myślenia

Główny nacisk w wersji 4.1 położono na „osobowość”. Model ma lepiej rozpoznawać intencje, być bardziej empatyczny i utrzymywać spójny charakter rozmówcy. Potwierdzają to testy EQ-Bench, gdzie Grok wykazuje się zdolnością do „oceny emocji użytkownika”.

Ciekawostką techniczną jest podział na dwa tryby:

Thinking (myślący): pełna moc obliczeniowa, wysokie wyniki w testach logicznych.
Tensor: tryb natychmiastowy, który nie używa „tokenów myślenia”.

Co imponujące, nawet w tym szybkim trybie Grok 4.1 osiąga 1465 punktów Elo, wyprzedzając wiele modeli „myślących” starszej generacji.

Kreatywność i mniej „halucynacji”

W testach kreatywnego pisania (Creative Writing v3) Grok 4.1 zajął drugie miejsce, tuż za wczesną wersją GPT-5.1. Ale i te dane mogą już być nieaktualne, ze względu na wyniki Gemini 3.0, co nie znaczy jednak że nowy Grok nie imponuje. Warto zaznaczyć, że xAI chwali się również znaczącą redukcją halucynacji (zmyślania faktów), co osiągnięto dzięki nowym technikom treningowym. Model jest już dostępny w wersji testowej dla ograniczonej grupy użytkowników. Także dla tych, którzy korzystają z Groka bezpłatnie.

#elonMusk #gemini30 #grok41 #lmarena #news #rankingAi #sztucznaInteligencja #xai

#xai #sztucznainteligencja #rankingai #news #lmarena #grok41

AI Sparkup @[email protected] · 2025-11-19 · 05:35 UTC

Grok 4.1, LMArena 1위 등극: AI 경쟁이 ‘감성’으로 옮겨간 이유

xAI의 Grok 4.1이 LMArena 1위를 차지했습니다. 성능이 아닌 감성지능과 신뢰성으로 차별화한 전략과 AI 경쟁의 새로운 방향을 분석합니다.

https://aisparkup.com/posts/6661

#ed9998eab081eab090ec868c #eab095ed9994ed9599ec8ab5 #eab090ec84b1eca780eb8aa5 #xai #lmarena #grok41

Winbuzzer @[email protected] · 2025-11-18 · 09:30 UTC

https://winbuzzer.com/2025/11/18/xai-launches-grok-4-1-targeting-emotional-intelligence-and-reliability-to-top-ai-benchmarks-xcxwbn