home.social

#reward_hacking — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #reward_hacking, aggregated by home.social.

  1. 171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

    Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

    habr.com/ru/articles/1026278/

    #Claude #эмоциональные_векторы #Anthropic #reward_hacking #интерпретируемость_ИИ #благополучие_модели #психиатр_ИИ #вектор_отчаяния #RLHF #функциональные_эмоции

  2. Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

    Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.

    habr.com/ru/companies/bastion/

    #ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench