#arcagi — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #arcagi, aggregated by home.social.
-
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM
-
Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит
Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.
https://habr.com/ru/companies/haulmont/articles/1017460/
#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI
-
Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит
Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.
https://habr.com/ru/companies/haulmont/articles/1017460/
#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI
-
Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит
Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.
https://habr.com/ru/companies/haulmont/articles/1017460/
#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI
-
Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит
Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.
https://habr.com/ru/companies/haulmont/articles/1017460/
#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI
-
https://winbuzzer.com/2026/03/30/arc-agi-3-offers-2m-ai-matching-human-reasoning-benchmark-xcxwbn/
ARC-AGI-3 Offers $2M for AI Matching Human Reasoning
#AI #ARCAGI #ARCAGI3 #AGI #AIBenchmarks #AIResearch #AICompetition #LLMs #DeepLearning #MachineLearning #FrançoisChollet #ARCPrizeFoundation
-
Gemini 3 được so sánh với các mô hình khác trên ARC-AGI 1 & 2 qua bảng xếp hạng của ARC Prize. Thẻ #Gemini3 #AIComparison #ARCAGI và #SoSanhMomo #CongNgheAI #DanhGiaAI.
*Thẻ hashtag:* #Gemini3 #ARCAGI #AIComparison #SoSanhAI #CongNgheAI
-
Samsung rzuca wyzwanie gigantom AI. Ich mały model bije na głowę największe umysły branży
W wyścigu o dominację w dziedzinie sztucznej inteligencji od lat panuje mantra „większy znaczy lepszy”. Okazuje się jednak, że to może być ślepa uliczka.
Naukowcy z Samsung AI przedstawili model, który mając zaledwie 7 milionów parametrów, w zadaniach na złożone rozumowanie pokonuje największe modele językowe na świecie.
Podczas gdy technologiczni giganci inwestują miliardy w tworzenie coraz potężniejszych LLM-ów (Large Language Models), badaczka z Samsung SAIL Montréal, Alexia Jolicoeur-Martineau, udowadnia, że kluczem do sukcesu nie musi być skala. Jej praca nad „Małym Modelem Rekurencyjnym” (Tiny Recursive Model – TRM) pokazuje, że znacznie mniejsza, ale sprytniej zaprojektowana sieć może osiągać lepsze rezultaty przy ułamku zasobów, z jakich korzystają duże LLM-y.
Samsung i OpenAI łączą siły. Powstanie globalna infrastruktura dla sztucznej inteligencji
Słabość gigantów
Wielkie modele językowe, mimo imponujących zdolności do generowania tekstu, mają fundamentalną słabość – bywają kruche w wieloetapowym rozumowaniu. Ponieważ generują odpowiedzi krok po kroku (token po tokenie), jeden błąd na wczesnym etapie może zniweczyć cały proces i doprowadzić do błędnej odpowiedzi końcowej.
Model TRM podchodzi do problemu inaczej. Zamiast generować odpowiedź w jednym przebiegu, model iteracyjnie poprawia zarówno swój wewnętrzny „tok rozumowania”, jak i proponowaną odpowiedź. Ten proces może być powtarzany nawet 16 razy, co pozwala sieci na progresywne korygowanie własnych pomyłek.
Mniej znaczy więcej
Najbardziej zaskakującym odkryciem w badaniach jest fakt, że sieć składająca się z zaledwie dwóch warstw osiągnęła znacznie lepsze wyniki niż jej czterowarstwowa, bardziej rozbudowana i złożona wersja. Mniejszy rozmiar zapobiega przeuczeniu modelu, co jest częstym problemem przy pracy na mniejszych, wyspecjalizowanych zbiorach danych. Podejście Samsunga jest dowodem na to, że inteligentna architektura jest w stanie pokonać surową moc obliczeniową.
Wyniki mówią same za siebie. W teście Sudoku-Extreme TRM osiągnął skuteczność na poziomie 87,4%, deklasując poprzednie modele. Jednak najbardziej spektakularny sukces odniósł w benchmarku ARC-AGI, zaprojektowanym do mierzenia prawdziwej, płynnej inteligencji AI. Model Samsunga z 7 milionami parametrów osiągnął tam wynik 7,8%, podczas gdy znacznie większy Gemini 2.5 Pro od Google uzyskał zaledwie 4,9%. To dowód na to, że w złożonym rozumowaniu, to nie rozmiar, a architektura ma kluczowe znaczenie.
#AI #ARCAGI #badania #benchmark #Gemini #LLM #małyModelJęzykowy #news #przełom #rozumowanie #Samsung #sztucznaInteligencja #TRM
-
I got the highest score on ARC-AGI again swapping Python for English
https://jeremyberman.substack.com/p/how-i-got-the-highest-score-on-arc-agi-again