#риски_ииагентов — Public Fediverse posts on home.social

Habr @[email protected] · 2026-03-08 · 21:12 UTC

[Перевод] Глобальный кризис интеллекта в 2028 году

У нас нет недостатка в манифестах технооптимистов , ведь каждый, кто заработал на ИТ-стартапах и недавнем ИИ-буме, возвещает новый, восхитительный мир. На их фоне технопессимисты были более разнозненны, выражая свой пессимизм и скептицизм в основном в комментариях под статьями оптимистов. Но теперь и у пессимистов / скептиков появился свой программный текст!.. Перед вами — наконец, чётко сформулированный "манифест технопессимизма". Этот перевод цикла статей The Global Intelligence Crisis включает две части: первую часть, Восхождение агентного ИИ, написал Алап Шах. Вторую часть, Глобальный кризис интеллекта в 2028 году , написали на основе его мыслей CitriniResearch. Я объединил обе части в одной статье в часовой лонгрид, и приглашаю желающих подискутировать о будущем мира, каким мы его знали ...

https://habr.com/ru/articles/1005760/

#Технопессимизм #подрывная_инновация #риски_ииагентов

#риски_ииагентов #подрывная_инновация #технопессимизм

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.

https://habr.com/ru/companies/bastion/articles/995322/

#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench

#odcvbench #ииагенты #информационная_безопасность #риски_ииагентов #безопасность_llm #misalignment

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.

https://habr.com/ru/companies/bastion/articles/995322/

#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench

#odcvbench #ииагенты #информационная_безопасность #риски_ииагентов #безопасность_llm #misalignment

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.

https://habr.com/ru/companies/bastion/articles/995322/

#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench

#odcvbench #ииагенты #информационная_безопасность #риски_ииагентов #безопасность_llm #misalignment

Habr @[email protected] · 2026-02-13 · 09:22 UTC

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.

https://habr.com/ru/companies/bastion/articles/995322/

#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench

#ml #mlops #reward_hacking #безопасность_ai #misalignment #безопасность_llm