home.social

#frontiermath — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #frontiermath, aggregated by home.social.

  1. [Перевод] Разбираем 14 самых популярных бенчмарков для LLM

    Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

    habr.com/ru/articles/1017082/

    #бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

  2. [Перевод] Разбираем 14 самых популярных бенчмарков для LLM

    Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

    habr.com/ru/articles/1017082/

    #бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

  3. [Перевод] Разбираем 14 самых популярных бенчмарков для LLM

    Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

    habr.com/ru/articles/1017082/

    #бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

  4. [Перевод] Разбираем 14 самых популярных бенчмарков для LLM

    Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

    habr.com/ru/articles/1017082/

    #бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM

  5. Когда нейросеть решит то, что не решил никто?

    В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили посмотреть, что будет дальше, и выкатили бенчмарк из задач, которые не решил вообще никто. Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале. Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями. Или вот задача попроще (на первый взгляд): привести алгоритм, который определяит, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа. Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат. Интересно. Читать далее

    habr.com/ru/companies/bar/arti

    #FrontierMath #Epoch_AI #LLM #бенчмарки #открытые_задачи #GPT5 #Gemini #теория_чисел #research_taste

  6. Когда нейросеть решит то, что не решил никто?

    В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили посмотреть, что будет дальше, и выкатили бенчмарк из задач, которые не решил вообще никто. Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале. Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями. Или вот задача попроще (на первый взгляд): привести алгоритм, который определяит, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа. Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат. Интересно. Читать далее

    habr.com/ru/companies/bar/arti

    #FrontierMath #Epoch_AI #LLM #бенчмарки #открытые_задачи #GPT5 #Gemini #теория_чисел #research_taste

  7. Когда нейросеть решит то, что не решил никто?

    В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили посмотреть, что будет дальше, и выкатили бенчмарк из задач, которые не решил вообще никто. Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале. Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями. Или вот задача попроще (на первый взгляд): привести алгоритм, который определяит, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа. Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат. Интересно. Читать далее

    habr.com/ru/companies/bar/arti

    #FrontierMath #Epoch_AI #LLM #бенчмарки #открытые_задачи #GPT5 #Gemini #теория_чисел #research_taste

  8. Когда нейросеть решит то, что не решил никто?

    В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили посмотреть, что будет дальше, и выкатили бенчмарк из задач, которые не решил вообще никто. Четырнадцать задач — не из учебников, не из олимпиад, а из живой математики: каждую формулировал исследователь-практик, каждую пытались решить минимум двое профессионалов, каждая достойна публикации хотя бы в специализированном журнале. Вот, например: найти полином степени 23, чьё поле разложения имеет группу Галуа M₂₃. Группа Матьё — спорадическая, одна из двадцати шести странных симметрий, которые не вписываются ни в какие серии. Для всех остальных спорадических групп такие полиномы давно известны, а для M₂₃ — нет, и это последний пробел в исследовании, которое ведут десятилетиями. Или вот задача попроще (на первый взгляд): привести алгоритм, который определяит, можно ли развязать узел за одно движение — то, что топологи называют "unknotting number равный единице". Звучит как упражнение для первокурсника, а на деле — фундаментальный вопрос низкоразмерной топологии, на который до сих пор нет ответа. Если нейросеть решит хоть одну из этих задач, результат сразу пойдёт в рецензируемый журнал — не потому что это достижение нейросетевых технологий, а потому что долгожданный результат. Интересно. Читать далее

    habr.com/ru/companies/bar/arti

    #FrontierMath #Epoch_AI #LLM #бенчмарки #открытые_задачи #GPT5 #Gemini #теория_чисел #research_taste

  9. OpenAI faces criticism after Epoch AI’s benchmark results show its o3 model performing far below the company's claims. The discrepancy raises concerns about transparency, testing practices, and credibility in AI reporting.

    #OpenAI #EpochAI #AITransparency #FrontierMath #AIEthics #ModelTesting #TechAccountability #AIModels #AIResearch #TECHi

    Read Full Article :- techi.com/openai-o3-model-scor

  10. OpenAI faces criticism after Epoch AI’s benchmark results show its o3 model performing far below the company's claims. The discrepancy raises concerns about transparency, testing practices, and credibility in AI reporting.

    Read Full Article :- techi.com/openai-o3-model-scor

  11. Search Engine Journal: OpenAI Secretly Funded Benchmarking Dataset Linked To o3 Model. “In addition to accessing the benchmarking dataset, OpenAI funded its creation, a fact that was withheld from the mathematicians who contributed to developing FrontierMath. Epoch AI belatedly disclosed OpenAI’s funding only in the final paper published on Arxiv.org, which announced the benchmark. Earlier […]

    https://rbfirehose.com/2025/01/26/search-engine-journal-openai-secretly-funded-benchmarking-dataset-linked-to-o3-model/

  12. Some people decided to throw non trivial mathematical problems to LLMs. Surprising no one, LLMs miserably fail to resolve the problems.

    "FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI".

    arxiv.org/pdf/2411.04872

    #FrontierMath #AI #LLM #LLMS