home.social

#arc-prize — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #arc-prize, aggregated by home.social.

fetched live
  1. There are two realities in AI today: one sees AGI just around the corner, the other urges caution. The #ARCPrize offers a clear test — can an AI truly understand and generalize, or is it just memorizing patterns?
    #divaexchange
    Learn more: diva.exchange/en/privacy/will-

  2. #OpenAI’s O3 model reportedly scores 76–88% on ARC benchmarks. François Chollet calls it a breakthrough - but warns: this still isn’t AGI. The #ARCPrize helps us tell real intelligence from clever shortcuts. #divaexchange

    More: diva.exchange/en/privacy/will-

  3. Chollet says today’s AI isn’t brilliant - it’s just “big databases.” These systems retrieve information well but fail at novel problems. The #ARCPrize sets real challenges that demand understanding and generalization, not just memorization.
    #divaexchange

    More info: diva.exchange/en/privacy/will-

  4. R1-Zero proves that AI can learn reasoning purely through reinforcement learning, eliminating the need for human-labeled data.

    arcprize.org/blog/r1-zero-r1-r

    #AI #DeepSeek #ARCPrize

  5. Was ist der ARC-Preis und welche Rolle spielt er?

    Der ARC-Preis ist ein mit über 1.000.000 Dollar dotierter öffentlicher Wettbewerb, der darauf abzielt, (Open-Source) Fortschritte im Bereich der Künstlichen Allgemeinen Intelligenz voranzutreiben. Er soll neue Ideen inspirieren und den Fortschritt auf dem Gebiet der Künstlichen Allgemeinen Intelligenz (KI). Mit dem ARC-AGI-Benchmark (Abstraction and Reasoning Corpus for Artificial General Intelligence) soll gemessen werden, wie gut ein KI-System neue Aufgaben verallgemeinern kann, was als ein Schlüsselaspekt von Intelligenz gilt.

    Details zum ARC-Preis:

    • Ziel des ARC-Preises 2024 war es, eine Punktzahl von 85 % auf dem ARC-AGI Private Evaluation Set zu erreichen. Der Wettbewerb lief von Juni bis November 2024. Zu den Preisen gehörten ein Hauptpreis in Höhe von 600.000 USD für das erste Team, das das 85%-Ziel erreicht, sowie weitere Preise für Fortschritte und eingereichte Arbeiten.
    • Der Wettbewerb wurde auf Kaggle ausgetragen, wo die Teilnehmer versuchten, 100 Aufgaben aus dem ARC-AGI Private Evaluation Set auf einer virtuellen Maschine mit begrenzten Ressourcen zu lösen. Die Teilnehmer mussten ihre Lösungen als Open Source zur Verfügung stellen, um für Preise in Frage zu kommen.
    • Die höchste Punktzahl, die während des Wettbewerbs 2024 erreicht wurde, war 55,5 % von MindsAI, obwohl sie nicht für einen Preis in Frage kamen, da sie ihre Lösung nicht offengelegt hatten. Diese Punktzahl wurde von o3 von OpenAI übertroffen, das Ende 2024 75,7 % erreichte, was darauf hindeutet, dass der Benchmark selbst in naher Zukunft gesättigt sein könnte.
    • Der Wettbewerb umfasste auch ein zweites öffentliches Leaderboard mit lockeren Rechenbeschränkungen und Internetzugang. Diese Rangliste diente zur Bewertung der Leistung unter Verwendung kommerziell verfügbarer APIs.
    • Im Rahmen des ARC-Preises wurden auch „Paper Awards“ vergeben, um neuartige Konzepte unabhängig von der erreichten Punktzahl zu würdigen, wobei mehrere Arbeiten, die neue Techniken beschreiben, ausgezeichnet wurden.
    • Der ARC-Preis soll ein jährlicher Wettbewerb sein, bis der ARC-AGI-Benchmark besiegt und eine öffentliche Referenzlösung vorgestellt wird. Die Organisatoren planen, den Wettbewerb 2025 auf der Grundlage der Erfahrungen aus der Veranstaltung 2024 neu zu gestalten.
    • Der ARC-Preis hat die Entwicklung verschiedener Tools, Datensätze und Repositories angeregt, um die Forschung und Entwicklung im Zusammenhang mit ARC-AGI zu unterstützen, darunter domänenspezifische Sprachen, Rahmenwerke für die Datengenerierung und interaktive Web-Tools.

    Mit dem ARC-Preis soll die offene Forschung im Bereich der Künstlichen Intelligenz gefördert werden, da ein Großteil der Pionierforschung im Bereich der Künstlichen Intelligenz nicht mehr von Industrielabors veröffentlicht wird. Ziel ist es, Forscher zu ermutigen, neue Techniken zu entwickeln und sie offen mit der Gemeinschaft zu teilen. Der Wettbewerb soll auch dazu beitragen, den ARC-AGI-Benchmark selbst zu verbessern.

    Wie funktioniert der ARC-Preis?

    Der ARC-AGI Benchmark wurde entwickelt, um die allgemeine Intelligenz und die Effizienz des Kompetenzerwerbs in KI-Systemen zu messen. Und so funktioniert es:

    Aufgabenstruktur

    • Jede Aufgabe in ARC-AGI besteht aus Input-Output-Beispielen, die als Raster dargestellt werden.
    • Die Raster können jede Größe von 1x1 bis 30x30 haben.
    • Jedes Quadrat im Raster kann eine von zehn Farben haben.

    Bewertungsverfahren

    • Um eine Aufgabe zu lösen, muss das KI-System ein pixelgenaues, korrektes Ausgaberaster für die Bewertungseingabe erzeugen, einschließlich der Bestimmung der korrekten Abmessungen des Ausgaberasters.
    • Der Benchmark umfasst öffentliche Trainings- und Bewertungssätze sowie einen privaten Bewertungssatz.
    • Der öffentliche Trainingssatz enthält 400 Aufgabendateien für das Algorithmustraining.
    • Der öffentliche Evaluierungssatz enthält außerdem 400 Aufgabendateien zur Prüfung der Algorithmusleistung.
    • Der private Bewertungssatz, der für die offizielle Rangliste verwendet wird, enthält 100 Aufgabendateien.

    Punktevergabe

    • Die Leistung wird anhand des Prozentsatzes der korrekten Vorhersagen in der privaten Bewertungsgruppe (100 Aufgaben) gemessen.
    • Für jede Aufgabe muss das System für jedes Testeingabegitter genau 2 Ausgaben vorhersagen.
    • Eine Aufgabe gilt nur dann als gelöst, wenn die vorhergesagte Ausgabe genau mit der Grundwahrheit übereinstimmt.

    Hauptmerkmale

    • Neuartige Aufgaben: Jede Aufgabe im Datensatz folgt einer anderen Logik, so dass die Systeme nicht im Voraus auf bestimmte Aufgaben vorbereitet werden können.
    • Grundwissen Prioritäten: Der Benchmark geht nur von grundlegendem Vorwissen aus, das Menschen typischerweise vor dem vierten Lebensjahr erwerben, z. B. Objektivität, grundlegende Topologie und elementare Ganzzahlarithmetik.
    • Kein Spezialwissen: Zur Lösung der Aufgaben sind keine speziellen Kenntnisse der Welt oder Sprachkenntnisse erforderlich.
    • Menschliche Verifizierung: Alle Aufgaben wurden von mindestens zwei MINT-Fachleuten überprüft, um sicherzustellen, dass sie von Menschen gelöst werden können.

    Schwierigkeitsgrad

    • Im Jahr 2024 liegt die KI-Leistung von ARC-AGI auf dem neuesten Stand der Technik bei 55,5 % der privaten Auswertungsmenge.
    • Die menschliche Leistung liegt im Durchschnitt zwischen 73,3 % und 77,2 % bei den öffentlichen Sätzen.

    Durch die Konzentration auf die Effizienz des Kompetenzerwerbs und nicht auf die aufgabenspezifische Leistung soll ARC-AGI ein genaueres Maß für die allgemeine Intelligenz von KI-Systemen liefern.

    Warum ist das Lösen von ARC-Aufgaben für KIs schwierig?

    Das Lösen von ARC-Rätseln ist für KI-Systeme aufgrund mehrerer Schlüsselfaktoren eine besondere Herausforderung:

    Komplexität des Problemlösungsprozesses

    • Anforderung an das Lernen anhand von wenigen Beispielen: ARC-Rätsel sind so konzipiert, dass sie die Fähigkeit einer KI zur Verallgemeinerung aus einer begrenzten Anzahl von Beispielen (3-5) bewerten. Diese Anforderung des „few-shot learning“ bedeutet, dass sich KI-Modelle nicht auf umfangreiche Trainingsdaten oder das Auswendiglernen von Daten verlassen können, wie es beim traditionellen maschinellen Lernen üblich ist. Stattdessen müssen sie zugrundeliegende Prinzipien extrahieren und auf neue Situationen anwenden, ähnlich wie Menschen lernen.
    • Widerstandsfähigkeit gegen Auswendiglernen: Die Aufgaben sind speziell so konzipiert, dass sie sich einfachen Auswendiglernstrategien widersetzen. Sie erfordern oft das Verständnis abstrakter Konzepte und Beziehungen und nicht nur das Erkennen von Mustern aus früheren Beispielen. Wie François Chollet, der Schöpfer des ARC-Benchmarks, feststellte, sind diese Aufgaben für Menschen einfach, aber für aktuelle KI-Systeme schwierig, da sie kein komplexes Wissen erfordern, sondern eher die Fähigkeit zu denken und sich anzupassen.

    Art der Rätsel

    • Abstraktes Denken: Die Rätsel erfordern ein tiefes Verständnis für abstraktes Denken, Logik und manchmal sogar Physik. Die KI muss Muster erkennen und logische Schlussfolgerungen aus vorgegebenen Beispielen ziehen, was wesentlich komplexer sein kann, als es auf den ersten Blick scheint.
    • Vielfältige Aufgaben: Jedes Rätsel stellt ein eigenes Lernproblem dar, so dass es für KI schwierig ist, eine einzige Strategie für verschiedene Aufgaben anzuwenden. Diese Vielfalt an Problemtypen zwingt KI-Systeme dazu, flexible Argumentationsfähigkeiten zu entwickeln, anstatt sich auf feste Algorithmen oder Heuristiken zu verlassen.

    Grenzen der aktuellen AI-Modelle

    • Mangel an echtem Verständnis: Viele moderne KI-Systeme, einschließlich großer Sprachmodelle (LLMs), arbeiten in erster Linie durch fortgeschrittenes Auswendiglernen und statistische Korrelation und nicht durch echtes Verständnis. Das bedeutet, dass sie zwar bei bestimmten Aufgaben mit großen Datensätzen gute Leistungen erbringen können, sich aber mit dem abstrakten Denken, das für ARC-Puzzles erforderlich ist, schwer tun.
    • Hohe Fehlerquoten: Selbst mit Brute-Force-Suche oder Strategien zur Minimierung der Beschreibungslänge haben aktuelle KI-Lösungen bei ARC-Aufgaben nur begrenzten Erfolg gezeigt. So haben die leistungsfähigsten Modelle bei diesen Rätseln nur eine Genauigkeit von etwa 34 % erreicht (o3 ist die bemerkenswerte Ausnahme Ende 2024), während die menschliche Leistung im Durchschnitt zwischen 85 % und 100 % liegt.

    Zusammenfassend lässt sich sagen, dass die Kombination aus den Anforderungen des Lernens in wenigen Schritten, dem Widerstand gegen das Auswendiglernen, dem Bedarf an abstraktem Denken und den Grenzen der aktuellen KI-Modelle zu den Schwierigkeiten der KI bei der Lösung von ARC-Rätseln beiträgt. Diese Herausforderungen verdeutlichen die Kluft zwischen den kognitiven Fähigkeiten des Menschen und den derzeitigen Möglichkeiten der künstlichen Intelligenz, echte Verallgemeinerungs- und Schlussfolgerungsfähigkeiten zu erreichen.

    Diese Lücke verkleinert sich rasch, und 2025 wird eine neue Version des Benchmarks - ARC-AGI-2 - eingeführt. Sie wird seit 2022 entwickelt und soll den Stand der Technik neu definieren. Das Ziel ist es, die AGI-Forschung mit strengen, hochwirksamen Bewertungen voranzutreiben, die die derzeitigen Grenzen von KI-Systemen aufzeigen. Vorläufige Tests von ARC-AGI-2 zeigen, dass es sowohl wertvoll als auch extrem herausfordernd sein wird, selbst für fortgeschrittene Modelle wie o3. Der Start von ARC-AGI-2 in Verbindung mit dem ARC-Preis 2025 ist für das späte erste Quartal geplant.

    Gehen Sie mit KI in die Zukunft Ihres Unternehmens

    Mit unseren KI-Workshops rüsten Sie Ihr Team mit den Werkzeugen und dem Wissen aus, um bereit für das Zeitalter der KI zu sein.

    Kontaktieren Sie uns

    #AGI #ARCPrize #Benchmark #o3

  6. What is the ARC Prize and why is it important?

    The ARC Prize is a $1,000,000+ public competition aimed at advancing open-source progress towards Artificial General Intelligence. The ARC Prize is a competition designed to inspire new ideas and drive progress towards Artificial General Intelligence (AGI) by reaching a target benchmark score on the ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) benchmark. The goal of the ARC-AGI benchmark is to measure how well an AI system can generalize on novel tasks, which is considered a key aspect of intelligence.

    Here are some key details about the ARC Prize:

    • The ARC Prize 2024 aimed to achieve an 85% score on the ARC-AGI private evaluation set. The competition ran from June to November 2024, with prizes including a grand prize of $600,000 for the first team to reach the 85% target, as well as other prizes for progress and paper submissions.
    • The competition was run on Kaggle, where participants attempted to solve 100 tasks from the ARC-AGI private evaluation set on a virtual machine with limited resources. Participants had to open-source their solutions to be eligible for prizes.
    • The highest score achieved during the 2024 competition was 55.5% by MindsAI, though they were not eligible for a prize due to not open-sourcing their solution. The score was beat by o3 from OpenAI achieving 75.7% at the end of 2024, indicating that the benchmark itself might be saturated in the very near future.
    • The competition also featured a secondary public leaderboard with relaxed compute constraints and internet access. This leaderboard was used to evaluate performance using commercially available APIs.
    • The ARC Prize also included "Paper Awards" to reward novel concepts, regardless of the scores achieved, with prizes awarded to several papers describing new techniques.
    • The ARC Prize is intended to be an annual competition until the ARC-AGI benchmark is defeated and a public reference solution is shared. The organizers plan to redesign the 2025 competition based on lessons learned from the 2024 event.
    • The ARC Prize has inspired the development of various tools, datasets, and repositories to support research and development related to ARC-AGI, including domain-specific languages, data generation frameworks, and interactive web tools.

    Allover, the ARC Prize seeks to promote open research in AGI, given that much of frontier AI research is no longer published by industry labs. The goal is to encourage researchers to develop new techniques and openly share them with the community. The competition is also intended to help improve the ARC-AGI benchmark itself.

    How does the ARC Price work?

    The ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) benchmark is designed to measure general intelligence and skill-acquisition efficiency in AI systems. Here's how it works:

    Task Structure

    • Each task in ARC-AGI consists of input-output examples presented as grids.
    • The grids can be any size from 1x1 to 30x305.
    • Each square in the grid can be one of ten colors.

    Evaluation Process

    • To solve a task, the AI system must produce a pixel-perfect, correct output grid for the evaluation input, including determining the correct dimensions of the output grid.
    • The benchmark includes public training and evaluation sets, as well as a private evaluation set.
    • The public training set contains 400 task files for algorithm training.
    • The public evaluation set also contains 400 task files for testing algorithm performance.
    • The private evaluation set, used for the official leaderboard, contains 100 task files.

    Scoring

    • Performance is measured by the percentage of correct predictions on the private evaluation set (100 tasks).
    • For each task, the system must predict exactly 2 outputs for every test input grid.
    • A task is considered solved only if the predicted output matches the ground truth exactly.

    Key Features

    • Novel Tasks: Each task in the dataset follows a different logic, ensuring that systems cannot be prepared for specific tasks in advance.
    • Core Knowledge Priors: The benchmark assumes only basic prior knowledge that humans typically acquire before age four, such as objectness, basic topology, and elementary integer arithmetic.
    • No Specialized Knowledge: Tasks do not require specialized world knowledge or language skills to solve.
    • Human Verification: All tasks have been verified by at least two STEM professionals to ensure solvability by humans1.

    Benchmark Difficulty

    • As of 2024, the state-of-the-art AI performance on ARC-AGI is 55.5% on the private evaluation set.
    • Human performance averages between 73.3% and 77.2% correct on the public sets.

    By focusing on skill-acquisition efficiency rather than task-specific performance, ARC-AGI aims to provide a more accurate measure of general intelligence in AI systems.

    Why is solving arc puzzles difficult for AIs?

    Solving ARC puzzles is particularly challenging for AI systems due to several key factors:

    Complexity of Problem-Solving

    • Few-Shot Learning Requirement: ARC puzzles are designed to assess an AI's ability to generalize from a limited number of examples (3-5). This few-shot learning requirement means that AI models cannot rely on extensive training data or memorization, which are common strategies in traditional machine learning. Instead, they must extract underlying principles and apply them to novel situations, similar to how humans learn.
    • Resistance to Memorization: The tasks are specifically crafted to resist simple memorization strategies. They often require understanding abstract concepts and relationships rather than just recognizing patterns from previous examples. As François Chollet, the creator of the ARC benchmark, noted, these tasks are easy for humans but difficult for current AI systems because they do not involve complex knowledge but rather the ability to reason and adapt.

    Nature of the Puzzles

    • Abstract Reasoning: The puzzles require a deep understanding of abstract reasoning, logic, and sometimes even physics. AI must recognize patterns and apply logical deductions based on given examples, which can be significantly more complex than it appears at first glance.
    • Variety of Tasks: Each puzzle presents a distinct learning problem, making it difficult for AI to apply a single strategy across different tasks. This diversity in problem types forces AI systems to develop flexible reasoning capabilities rather than relying on fixed algorithms or heuristics.

    Limitations of Current AI Models

    • Lack of True Understanding: Many modern AI systems, including large language models (LLMs), primarily operate through advanced memorization and statistical correlation rather than genuine understanding. This means that while they can perform well on specific tasks with large datasets, they struggle with the abstract reasoning required for ARC puzzles.
    • High Error Rates: Even with sophisticated approaches like brute-force searching or minimum description length strategies, current AI solutions have shown limited success on ARC tasks. For instance, the best-performing models have only achieved around 34% accuracy on these puzzles (o3 being the notable exception at the end of 2024), while human performance averages between 85% and 100%.

    In summary, the combination of few-shot learning requirements, resistance to memorization, the need for abstract reasoning, and the limitations of current AI models contribute to the difficulty AIs face in solving ARC puzzles. These challenges highlight the gap between human cognitive abilities and current artificial intelligence capabilities in achieving true generalization and reasoning skills.

    This gap is narrowing rapidly, and by 2025, a new version of the benchmark—ARC-AGI-2—will be introduced. In development since 2022, it aims to redefine the state-of-the-art. Its goal is to drive AGI research forward with rigorous, high-impact evaluations that expose the current limitations of AI systems. Preliminary testing of ARC-AGI-2 indicates it will be both valuable and extremely challenging, even for advanced models like o3. The launch of ARC-AGI-2 in tandem with the ARC Prize 2025, is anticipated for late Q1.

    Unlock the Future of Business with AI

    Dive into our immersive workshops and equip your team with the tools and knowledge to lead in the AI era.

    Get in touch with us

    #AGI #ARCPrize #Benchmark #o3

  7. "Yesterday OpenAI announced some very impressive results from their not-yet-released o3 model. According to the announcement, o3 has made enormous progress over its predecessors on several “reasoning” benchmarks, in particular, two quite difficult ones: Frontier Math, a benchmark containing hundreds of unpublished math problems that are known to be hard even for human math whizzes, and the Abstraction and Reasoning Corpus (ARC), a collection of concept-induction tasks which I’ve written about here, here, and here.

    In this post I’ll discuss the o3 results on ARC. If you’re interested in AI and active on social media, you’ve likely already heard about these results, but I’ll try to add more context and my own thoughts here."

    aiguide.substack.com/p/did-ope

    #AI #GenerativeAI #OpenAI #o3 #ArcPrize #AbstractReasoning #LLMs

  8. Ist natürlich lustig, dass ich das am Tag der Ankündigung / Ergebnisveröffentlichung von o3 gepostet habe. Wenn das mal zugänglich ist, werde ich es natürlich auch testen. Dass es offenbar so gut beim #arcprize abschneidet, ist natürlich schon ne Ansage. arcprize.org/blog/oai-o3-pub-b #LLMs

  9. arcprize.org/blog/oai-o3-pub-b

    “You'll know AGI is here when the exercise of creating tasks that are easy for regular humans but hard for AI becomes simply impossible.”

    #ai #arcprize #arcagi #agi #openai #o3

  10. The intelligence of a system is a measure of its skill-acquisition efficiency over a scope of tasks, with respect to priors, experience, and generalization difficulty. -

    François Chollet, "On the Measure of Intelligence"

    arcprize.org/arc#agi-definition

  11. Today a jaw dropping "38" score have been accomplished on the ARC-AGI leaderboard.

    Interview with the team behind it.
    youtube.com/watch?v=jSAT_RuJ_C
    #agi #arcprize #arcagi #kaggle