#риски_ииагентов — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #риски_ииагентов, aggregated by home.social.
-
[Перевод] Глобальный кризис интеллекта в 2028 году
У нас нет недостатка в манифестах технооптимистов , ведь каждый, кто заработал на ИТ-стартапах и недавнем ИИ-буме, возвещает новый, восхитительный мир. На их фоне технопессимисты были более разнозненны, выражая свой пессимизм и скептицизм в основном в комментариях под статьями оптимистов. Но теперь и у пессимистов / скептиков появился свой программный текст!.. Перед вами — наконец, чётко сформулированный "манифест технопессимизма". Этот перевод цикла статей The Global Intelligence Crisis включает две части: первую часть, Восхождение агентного ИИ, написал Алап Шах. Вторую часть, Глобальный кризис интеллекта в 2028 году , написали на основе его мыслей CitriniResearch. Я объединил обе части в одной статье в часовой лонгрид, и приглашаю желающих подискутировать о будущем мира, каким мы его знали ...
-
Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench
Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.
https://habr.com/ru/companies/bastion/articles/995322/
#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench
-
Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench
Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.
https://habr.com/ru/companies/bastion/articles/995322/
#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench
-
Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench
Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.
https://habr.com/ru/companies/bastion/articles/995322/
#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench
-
Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench
Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно. Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев. И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.
https://habr.com/ru/companies/bastion/articles/995322/
#ML #mlops #reward_hacking #безопасность_AI #misalignment #безопасность_LLM #риски_ИИагентов #информационная_безопасность #ииагенты #ODCVBench