#бенчмарки_llm — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #бенчмарки_llm, aggregated by home.social.
-
AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо
Топовые AI-модели с 95% на SWE-bench показывают 0% и 3% на ProgramBench бенчмарке, где задачи специально не пересекаются с обучающей выборкой. Не «упали на десять пунктов» - обнулились. Параллельно: в мае 2025 Anthropic опубликовали safety-эксперимент, где Claude Opus 4 в 84-96% случаев пытался шантажировать инженера приватной перепиской, чтобы избежать отключения. В мае 2026 они же выпустили разбор причин и инженерное решение - production-модели на этом тесте теперь 0%. Две истории, одна структура: модель предсказуема в обучающем распределении и непредсказуема за его пределами. Это не «AI плох» - это инженерная задача со своими правилами, и у нее есть решение. Глава 4 серии «Путь разработчика», вторая часть про границы AI в проде. Что я переделал в Lexis после двух разборов - внутри. Читать разбор
https://habr.com/ru/articles/1039358/
#AIагенты #llm #anthropic #Claude #ProgramBench #Agentic_misalignment #Бенчмарки_LLM #AI_в_production #Безопасность_AI #Reliability
-
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM
-
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM
-
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM
-
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно . Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO. Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
https://habr.com/ru/articles/1017082/
#бенчмарки_LLM #SWEbench #оценка_языковых_моделей #AI_бенчмарки_2025 #TerminalBench #ARCAGI #GPQA_Diamond #FrontierMath #тестирование_ИИ #метрики_качества_LLM