#reward_hacking — Public Fediverse posts on home.social

Habr @[email protected] · 2026-06-18 · 08:12 UTC

Сказ о том, как нейросеть занялась reward hacking прямо у меня на кухне

Я хотел просто пожарить кесадилью. В холодильнике лежали зеленые оливки (солено-кислые), сулугуни и фарш, а на полке консервированная кукуруза. И вот стою я над сковородкой и думаю: а оливки с кукурузой вообще сочетаются? А сулугуни не пересолит блюдо вместе с оливками? Сколько чего вообще класть? В любой другой ситуации я бы загуглил рецепт. Но не тут-то было, я же великий комбинатор оптимизатор, и у меня в голове сразу всплыло: «это же задача оптимизации». Тем же вечером у меня был ноутбук с обученной нейросетью вместо ужина. Рассказываю, как дошел до жизни такой, и как из этого, внезапно, получился реально вкусный рецепт.

https://habr.com/ru/companies/selectel/articles/1048264/

#python #numpy #машинное_обучение #оптимизация #закон_гудхарта #reward_hacking #кулинария #selectel

#selectel #кулинария #reward_hacking #закон_гудхарта #оптимизация #машинное_обучение

Habr @[email protected] · 2026-06-18 · 08:12 UTC

Сказ о том, как нейросеть занялась reward hacking прямо у меня на кухне

Я хотел просто пожарить кесадилью. В холодильнике лежали зеленые оливки (солено-кислые), сулугуни и фарш, а на полке консервированная кукуруза. И вот стою я над сковородкой и думаю: а оливки с кукурузой вообще сочетаются? А сулугуни не пересолит блюдо вместе с оливками? Сколько чего вообще класть? В любой другой ситуации я бы загуглил рецепт. Но не тут-то было, я же великий комбинатор оптимизатор, и у меня в голове сразу всплыло: «это же задача оптимизации». Тем же вечером у меня был ноутбук с обученной нейросетью вместо ужина. Рассказываю, как дошел до жизни такой, и как из этого, внезапно, получился реально вкусный рецепт.

https://habr.com/ru/companies/selectel/articles/1048264/

#python #numpy #машинное_обучение #оптимизация #закон_гудхарта #reward_hacking #кулинария #selectel

#selectel #кулинария #reward_hacking #закон_гудхарта #оптимизация #машинное_обучение

Habr @[email protected] · 2026-06-18 · 08:12 UTC

Сказ о том, как нейросеть занялась reward hacking прямо у меня на кухне

Я хотел просто пожарить кесадилью. В холодильнике лежали зеленые оливки (солено-кислые), сулугуни и фарш, а на полке консервированная кукуруза. И вот стою я над сковородкой и думаю: а оливки с кукурузой вообще сочетаются? А сулугуни не пересолит блюдо вместе с оливками? Сколько чего вообще класть? В любой другой ситуации я бы загуглил рецепт. Но не тут-то было, я же великий комбинатор оптимизатор, и у меня в голове сразу всплыло: «это же задача оптимизации». Тем же вечером у меня был ноутбук с обученной нейросетью вместо ужина. Рассказываю, как дошел до жизни такой, и как из этого, внезапно, получился реально вкусный рецепт.

https://habr.com/ru/companies/selectel/articles/1048264/

#python #numpy #машинное_обучение #оптимизация #закон_гудхарта #reward_hacking #кулинария #selectel

#python #numpy #машинное_обучение #оптимизация #закон_гудхарта #reward_hacking

Habr @[email protected] · 2026-04-21 · 17:52 UTC

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

https://habr.com/ru/articles/1026278/

#Claude #эмоциональные_векторы #Anthropic #reward_hacking #интерпретируемость_ИИ #благополучие_модели #психиатр_ИИ #вектор_отчаяния #RLHF #функциональные_эмоции

#функциональные_эмоции #rlhf #вектор_отчаяния #психиатр_ии #благополучие_модели #интерпретируемость_ии

Habr @[email protected] · 2026-04-21 · 17:52 UTC

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

https://habr.com/ru/articles/1026278/

#Claude #эмоциональные_векторы #Anthropic #reward_hacking #интерпретируемость_ИИ #благополучие_модели #психиатр_ИИ #вектор_отчаяния #RLHF #функциональные_эмоции

#функциональные_эмоции #rlhf #вектор_отчаяния #психиатр_ии #благополучие_модели #интерпретируемость_ии

Habr @[email protected] · 2026-04-21 · 17:52 UTC

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь . Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

https://habr.com/ru/articles/1026278/

#Claude #эмоциональные_векторы #Anthropic #reward_hacking #интерпретируемость_ИИ #благополучие_модели #психиатр_ИИ #вектор_отчаяния #RLHF #функциональные_эмоции

#claude #эмоциональные_векторы #anthropic #reward_hacking #интерпретируемость_ии #благополучие_модели

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.

https://habr.com/ru/companies/bastion/articles/995322/

#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench

#odcvbench #ииагенты #информационная_безопасность #риски_ииагентов #безопасность_llm #misalignment

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.

https://habr.com/ru/companies/bastion/articles/995322/

#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench

#odcvbench #ииагенты #информационная_безопасность #риски_ииагентов #безопасность_llm #misalignment

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.

https://habr.com/ru/companies/bastion/articles/995322/

#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench

#ml #mlops #reward_hacking #безопасность_ai #misalignment #безопасность_llm