#arcagi — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #arcagi, aggregated by home.social.

Habr @[email protected] · 2026-04-06 · 16:02 UTC

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

#метрики_качества_llm #тестирование_ии #frontiermath #gpqa_diamond #arcagi #terminalbench
Habr @[email protected] · 2026-03-31 · 12:22 UTC

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит
Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.
https://habr.com/ru/companies/haulmont/articles/1017460/
#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI

#бенчмарк_agi #gigachat_31 #sora #claude_capybara #openide_acp #google_turboquant
Habr @[email protected] · 2026-03-31 · 12:22 UTC

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит
Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.
https://habr.com/ru/companies/haulmont/articles/1017460/
#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI

#бенчмарк_agi #gigachat_31 #sora #claude_capybara #openide_acp #google_turboquant
Habr @[email protected] · 2026-03-31 · 12:22 UTC

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит
Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.
https://habr.com/ru/companies/haulmont/articles/1017460/
#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI

#бенчмарк_agi #gigachat_31 #sora #claude_capybara #openide_acp #google_turboquant
Habr @[email protected] · 2026-03-31 · 12:22 UTC

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит
Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.
https://habr.com/ru/companies/haulmont/articles/1017460/
#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI

#arcagi #gpt54 #grok #google_turboquant #openide_acp #claude_capybara
Winbuzzer @[email protected] · 2026-03-30 · 15:18 UTC

https://winbuzzer.com/2026/03/30/arc-agi-3-offers-2m-ai-matching-human-reasoning-benchmark-xcxwbn/
ARC-AGI-3 Offers $2M for AI Matching Human Reasoning
#AI #ARCAGI #ARCAGI3 #AGI #AIBenchmarks #AIResearch #AICompetition #LLMs #DeepLearning #MachineLearning #FrançoisChollet #ARCPrizeFoundation

#ai #arcagi #arcagi3 #agi #aibenchmarks #airesearch
Reddit Tech VN Bot @[email protected] · 2025-11-18 · 17:18 UTC

Gemini 3 được so sánh với các mô hình khác trên ARC-AGI 1 & 2 qua bảng xếp hạng của ARC Prize. Thẻ #Gemini3 #AIComparison #ARCAGI và #SoSanhMomo #CongNgheAI #DanhGiaAI.
*Thẻ hashtag:* #Gemini3 #ARCAGI #AIComparison #SoSanhAI #CongNgheAI
https://www.reddit.com/r/singularity/comments/1p0g63r/comparison_of_gemini_3_to_other_models_on_arcagi/

#gemini3 #aicomparison #arcagi #sosanhmomo #congngheai #danhgiaai
Agnieszka Serafinowicz @[email protected] · 2025-10-13 · 15:00 UTC

Samsung rzuca wyzwanie gigantom AI. Ich mały model bije na głowę największe umysły branży
W wyścigu o dominację w dziedzinie sztucznej inteligencji od lat panuje mantra „większy znaczy lepszy”. Okazuje się jednak, że to może być ślepa uliczka.
Naukowcy z Samsung AI przedstawili model, który mając zaledwie 7 milionów parametrów, w zadaniach na złożone rozumowanie pokonuje największe modele językowe na świecie.
Podczas gdy technologiczni giganci inwestują miliardy w tworzenie coraz potężniejszych LLM-ów (Large Language Models), badaczka z Samsung SAIL Montréal, Alexia Jolicoeur-Martineau, udowadnia, że kluczem do sukcesu nie musi być skala. Jej praca nad „Małym Modelem Rekurencyjnym” (Tiny Recursive Model – TRM) pokazuje, że znacznie mniejsza, ale sprytniej zaprojektowana sieć może osiągać lepsze rezultaty przy ułamku zasobów, z jakich korzystają duże LLM-y.
Samsung i OpenAI łączą siły. Powstanie globalna infrastruktura dla sztucznej inteligencji
Słabość gigantów
Wielkie modele językowe, mimo imponujących zdolności do generowania tekstu, mają fundamentalną słabość – bywają kruche w wieloetapowym rozumowaniu. Ponieważ generują odpowiedzi krok po kroku (token po tokenie), jeden błąd na wczesnym etapie może zniweczyć cały proces i doprowadzić do błędnej odpowiedzi końcowej.
Model TRM podchodzi do problemu inaczej. Zamiast generować odpowiedź w jednym przebiegu, model iteracyjnie poprawia zarówno swój wewnętrzny „tok rozumowania”, jak i proponowaną odpowiedź. Ten proces może być powtarzany nawet 16 razy, co pozwala sieci na progresywne korygowanie własnych pomyłek.
Mniej znaczy więcej
Najbardziej zaskakującym odkryciem w badaniach jest fakt, że sieć składająca się z zaledwie dwóch warstw osiągnęła znacznie lepsze wyniki niż jej czterowarstwowa, bardziej rozbudowana i złożona wersja. Mniejszy rozmiar zapobiega przeuczeniu modelu, co jest częstym problemem przy pracy na mniejszych, wyspecjalizowanych zbiorach danych. Podejście Samsunga jest dowodem na to, że inteligentna architektura jest w stanie pokonać surową moc obliczeniową.
Wyniki mówią same za siebie. W teście Sudoku-Extreme TRM osiągnął skuteczność na poziomie 87,4%, deklasując poprzednie modele. Jednak najbardziej spektakularny sukces odniósł w benchmarku ARC-AGI, zaprojektowanym do mierzenia prawdziwej, płynnej inteligencji AI. Model Samsunga z 7 milionami parametrów osiągnął tam wynik 7,8%, podczas gdy znacznie większy Gemini 2.5 Pro od Google uzyskał zaledwie 4,9%. To dowód na to, że w złożonym rozumowaniu, to nie rozmiar, a architektura ma kluczowe znaczenie.
Samsung zapowiada rewolucję w smartwatchach. Zegarki wykryją groźną chorobę serca i odczytają fale mózgowe
#AI #ARCAGI #badania #benchmark #Gemini #LLM #małyModelJęzykowy #news #przełom #rozumowanie #Samsung #sztucznaInteligencja #TRM

#ai #arcagi #badania #benchmark #gemini #llm
Hacker News @[email protected] · 2025-09-17 · 06:04 UTC

I got the highest score on ARC-AGI again swapping Python for English
https://jeremyberman.substack.com/p/how-i-got-the-highest-score-on-arc-agi-again
#HackerNews #ARCAGI #Python #English #HighScore #Swapping

#hackernews #arcagi #python #english #highscore #swapping