#arc-agi — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-06 · 16:02 UTC

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

https://habr.com/ru/articles/1017082/

#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

#метрики_качества_llm #тестирование_ии #frontiermath #gpqa_diamond #arcagi #terminalbench

Habr @[email protected] · 2026-03-31 · 12:22 UTC

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.

https://habr.com/ru/companies/haulmont/articles/1017460/

#ARCAGI #GPT54 #Grok #Google_TurboQuant #OpenIDE_ACP #Claude_Capybara #Sora #GigaChat_31 #бенчмарк_AGI

#бенчмарк_agi #gigachat_31 #sora #claude_capybara #openide_acp #google_turboquant

Habr @[email protected] · 2025-12-12 · 17:42 UTC

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Вчера вышла новая версия модели ChatGPT 5.2 . В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков. Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок. На сегодня существует две версии этого теста. Так о чем же он?

https://habr.com/ru/articles/976228/

#искусственный_интеллект #машинное_обучение #новости #бенчмарки #бенчмаркинг #тестирование_моделей #генеративный_ии #openai #arcagi

#arcagi #openai #генеративный_ии #тестирование_моделей #бенчмаркинг #бенчмарки

Agnieszka Serafinowicz @[email protected] · 2025-10-13 · 15:00 UTC

Samsung rzuca wyzwanie gigantom AI. Ich mały model bije na głowę największe umysły branży

W wyścigu o dominację w dziedzinie sztucznej inteligencji od lat panuje mantra „większy znaczy lepszy”. Okazuje się jednak, że to może być ślepa uliczka.

Naukowcy z Samsung AI przedstawili model, który mając zaledwie 7 milionów parametrów, w zadaniach na złożone rozumowanie pokonuje największe modele językowe na świecie.

Podczas gdy technologiczni giganci inwestują miliardy w tworzenie coraz potężniejszych LLM-ów (Large Language Models), badaczka z Samsung SAIL Montréal, Alexia Jolicoeur-Martineau, udowadnia, że kluczem do sukcesu nie musi być skala. Jej praca nad „Małym Modelem Rekurencyjnym” (Tiny Recursive Model – TRM) pokazuje, że znacznie mniejsza, ale sprytniej zaprojektowana sieć może osiągać lepsze rezultaty przy ułamku zasobów, z jakich korzystają duże LLM-y.

Samsung i OpenAI łączą siły. Powstanie globalna infrastruktura dla sztucznej inteligencji

Słabość gigantów

Wielkie modele językowe, mimo imponujących zdolności do generowania tekstu, mają fundamentalną słabość – bywają kruche w wieloetapowym rozumowaniu. Ponieważ generują odpowiedzi krok po kroku (token po tokenie), jeden błąd na wczesnym etapie może zniweczyć cały proces i doprowadzić do błędnej odpowiedzi końcowej.

Model TRM podchodzi do problemu inaczej. Zamiast generować odpowiedź w jednym przebiegu, model iteracyjnie poprawia zarówno swój wewnętrzny „tok rozumowania”, jak i proponowaną odpowiedź. Ten proces może być powtarzany nawet 16 razy, co pozwala sieci na progresywne korygowanie własnych pomyłek.

Mniej znaczy więcej

Najbardziej zaskakującym odkryciem w badaniach jest fakt, że sieć składająca się z zaledwie dwóch warstw osiągnęła znacznie lepsze wyniki niż jej czterowarstwowa, bardziej rozbudowana i złożona wersja. Mniejszy rozmiar zapobiega przeuczeniu modelu, co jest częstym problemem przy pracy na mniejszych, wyspecjalizowanych zbiorach danych. Podejście Samsunga jest dowodem na to, że inteligentna architektura jest w stanie pokonać surową moc obliczeniową.

Wyniki mówią same za siebie. W teście Sudoku-Extreme TRM osiągnął skuteczność na poziomie 87,4%, deklasując poprzednie modele. Jednak najbardziej spektakularny sukces odniósł w benchmarku ARC-AGI, zaprojektowanym do mierzenia prawdziwej, płynnej inteligencji AI. Model Samsunga z 7 milionami parametrów osiągnął tam wynik 7,8%, podczas gdy znacznie większy Gemini 2.5 Pro od Google uzyskał zaledwie 4,9%. To dowód na to, że w złożonym rozumowaniu, to nie rozmiar, a architektura ma kluczowe znaczenie.

Samsung zapowiada rewolucję w smartwatchach. Zegarki wykryją groźną chorobę serca i odczytają fale mózgowe

#AI #ARCAGI #badania #benchmark #Gemini #LLM #małyModelJęzykowy #news #przełom #rozumowanie #Samsung #sztucznaInteligencja #TRM

#ai #arcagi #badania #benchmark #gemini #llm

Hacker News @[email protected] · 2025-09-17 · 06:04 UTC

I got the highest score on ARC-AGI again swapping Python for English

https://jeremyberman.substack.com/p/how-i-got-the-highest-score-on-arc-agi-again

#HackerNews #ARCAGI #Python #English #HighScore #Swapping

#hackernews #arcagi #python #english #highscore #swapping

Harald Klinke @[email protected] · 2025-04-17 · 15:27 UTC

If AI flunks François Chollet’s test, maybe it just struggles with colorful grids—not intelligence itself. #AI #AGI #Intelligence #Chollet #ARCAGI #PhilosophyOfAI

The Man Out to Prove How Dumb ...

#ai #agi #intelligence #chollet #arcagi #philosophyofai

Philosopher Scholar @philosopher · 2025-02-14 · 23:32 UTC

Yessssss 🐍 a benchmark for AI that matters.

"It wasn’t until we tested GPT-4, Gemini 2.0, and o3-mini that we saw enough spatial reasoning for strategic play."

https://arcprize.org/blog/snakebench

#snakeBench #ai #llms #arcagi

#snakebench #ai #llms #arcagi

Habr @[email protected] · 2024-12-23 · 17:32 UTC

Модель o3 от OpenAI показала результат 75,7% в бенчмарке ARC-AGI-Pub

Франсуа Шолле, создатель фреймворка Keras и основатель ARC Prize Foundation, поделился итогами тестов новой модели o3 от OpenAI в тестах бенчмарка ARC-AGI-Pub. Эта модель достигла впечатляющего результата — 75,7% на полу-приватном наборе оценки при соблюдении установленного публичного лимита вычислительных ресурсов в $10 тысяч. Конфигурация o3 с увеличенным уровнем вычислений (172-кратное увеличение) показала результат 87,5%. Этот результат представляет собой неожиданный и значительный скачок в возможностях искусственного интеллекта, демонстрируя способность к адаптации к новым задачам, ранее невиданную в моделях семейства GPT. Для сравнения, ARC-AGI-1 потребовал 4 года, чтобы повысить результат с 0% у GPT-3 в 2020 году до 5% у GPT-4o в 2024 году. Все представления о возможностях ИИ требуют пересмотра подхода к бенчмаркам ARC в свете достижений o3.

https://habr.com/ru/articles/869098/

#AI #openai #o3 #arc #arcagi #бенчмарк #искусственный_интеллект #ии

#ai #openai #o3 #arc #arcagi #бенчмарк

Philosopher Scholar @philosopher · 2024-12-23 · 00:41 UTC

Personally I've waited for an AI system to pass the ARC-AGI benchmark before freaking out. That time is now...

"You'll know AGI is here when the exercise of creating tasks that are easy for regular humans but hard for AI becomes simply impossible."
- François Chollet

https://arcprize.org/blog/oai-o3-pub-breakthrough?fbclid=IwY2xjawHVSqRleHRuA2FlbQIxMQABHZhZPjSMXsSagCxfChWfwCvE16sdjRB_rgMhCD5etdnDWtbb0udHsgcMlQ_aem_mhIyCRmnmna0cDqnliunKA

#agi #ai #openAI #chatGPT #arcagi

#agi #ai #openai #chatgpt #arcagi

卡拉今天看了什麼 @[email protected] · 2024-12-22 · 02:53 UTC

OpenAI推出o3模型！推理能力再推高等級，為下一代AI鋪路 | 動區動趨-最具影響力的區塊鏈新聞媒體

Link

📌 Summary:
OpenAI近期推出了全新推理模型o3，達成了75.7%的ARC-AGI測試成績，展現出卓越的推理能力，並採用新的「審慎對齊」技術以強化模型安全性。該模型分為o3和o3-mini兩個版本，預計在2025年初正式發布。目前，OpenAI已邀請研究人員參與安全測試，同時該模型的推出標誌着AI發展的新階段。

🎯 Key Points:
- OpenAI的o3模型在ARC-AGI測試中表現出色，創下新紀錄。
- o3系列包括完整版本o3和較小版本o3-mini，後者將於2025年1月推出。
- 新模型提供不同的推理模式，允許用戶調整思考時間，以優化運算成本。
- 新引入的「審慎對齊」技術保障了模型運作的安全性。
- 網絡安全測試正在進行，OpenAI邀請外部研究人員參與，申請截止日期為2025年1月10日。

🔖 Keywords:
#OpenAI #推理模型 #o3 #ARC-AGI #安全性

#openai #推理模型 #o3 #arcagi #安全性

Tero Keski-Valkama @[email protected] · 2024-12-21 · 13:22 UTC

ARC-AGI doesn't measure intelligence. Intelligence is competence in ridiculously transferrable skills and knowledge. The transfer is bi-directional between different tasks.

If ARC-AGI measured a skill that is ridiculously transferrable, applicable across many diverse topics, LLMs would have learned this skill by learning competence across other kinds of generalist tasks. They didn't.

O3 achieved high scores in these tasks now, probably mostly because they were trained on 75% of the public ARC-AGI benchmark set, allowing it to learn the special skills needed for these tasks.

Since ARC-AGI skills are clearly super special, as in not relevant for anything else, and human-imitative, they do not relate to intelligence at all. It is easy to come up with special tasks invoking special skills which do not apply to any other tasks.

For example, as a contrived example, let's take an arbitrary hash function with an arbitrary seed and produce a sequence of numbers with it. The task is to guess the next number from the previous one. The skill to do this can only apply to this hash function and seed and doesn't generalize or transfer to any other actually useful task.

ARC-AGI is like that, except the hash function is human. This skill has very limited transfer and that is exactly the feature which makes it "difficult" for AIs. If it was a skill that actually means intelligence, it would have been paradoxically learnable by becoming competent in other, unrelated tasks. If it was a truly important skill among all skills related to intelligence, it would have been among the first skills LLMs would have learned as such important, core intelligence skills, are present in almost all tasks.

#UniversalEmbodiment #AI #ARCAGI #AGI #LLMs

#universalembodiment #ai #arcagi #agi #llms

mthpvg @[email protected] · 2024-12-21 · 10:46 UTC

https://arcprize.org/blog/oai-o3-pub-breakthrough

“You'll know AGI is here when the exercise of creating tasks that are easy for regular humans but hard for AI becomes simply impossible.”

#ai #arcprize #arcagi #agi #openai #o3

Simon Strandgaard @[email protected] · 2024-11-21 · 16:39 UTC

ARC-AGI meetings every sunday at 17h00 UTC.

It's on Yannic Kilcher's Discord server.
https://discord.gg/V3GVWU4XUe

The puzzles looks like pixel art, but are hard for computers to solve, the best team (MindsAI) can solve 58 out of 100. The human average is solving 60% of the puzzles.

Coding a solver for this has a lot of graphics operations such as: erosion, dilation, convolution filters. So it's feels like first graphics experiments that I did in the 30 years ago.

#ai #agi #arcagi #demoscene

Simon Strandgaard @[email protected] · 2024-06-19 · 11:43 UTC

Today a jaw dropping "38" score have been accomplished on the ARC-AGI leaderboard.

Interview with the team behind it.
https://www.youtube.com/watch?v=jSAT_RuJ_Cg
#agi #arcprize #arcagi #kaggle

#agi #arcprize #arcagi #kaggle

Simon Strandgaard @[email protected] · 2024-06-11 · 17:36 UTC

New ARC kaggle contest has been launched.

https://arcprize.org/blog/launch
#agi #arcagi #ai #ml #kaggle

#agi #arcagi #ai #ml #kaggle