home.social

#agentic_misalignment — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #agentic_misalignment, aggregated by home.social.

  1. AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

    Топовые AI-модели с 95% на SWE-bench показывают 0% и 3% на ProgramBench бенчмарке, где задачи специально не пересекаются с обучающей выборкой. Не «упали на десять пунктов» - обнулились. Параллельно: в мае 2025 Anthropic опубликовали safety-эксперимент, где Claude Opus 4 в 84-96% случаев пытался шантажировать инженера приватной перепиской, чтобы избежать отключения. В мае 2026 они же выпустили разбор причин и инженерное решение - production-модели на этом тесте теперь 0%. Две истории, одна структура: модель предсказуема в обучающем распределении и непредсказуема за его пределами. Это не «AI плох» - это инженерная задача со своими правилами, и у нее есть решение. Глава 4 серии «Путь разработчика», вторая часть про границы AI в проде. Что я переделал в Lexis после двух разборов - внутри. Читать разбор

    habr.com/ru/articles/1039358/

    #AIагенты #llm #anthropic #Claude #ProgramBench #Agentic_misalignment #Бенчмарки_LLM #AI_в_production #Безопасность_AI #Reliability