#безопасность_ии — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-14 · 14:32 UTC

AI/LLM Firewall на практике: сценарии атак и методы защиты

В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM , проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и техниками из фреймворка MITRE ATLAS и списка рисков OWASP Top 10 for LLM. Разберем сценарии атак с детальными схемами и методами защиты на примере решения INFERA AI.Firewall. Почему традиционных средств защиты недостаточно? Современные системы на базе LLM представляют собой принципиально новую атакуемую поверхность. Как справедливо отмечается в отчете Cloud Security Alliance (CSA) на саммите RSAC 2025, «защита промптов – это лишь часть проблемы, а не её решение». Если традиционный межсетевой экран (WAF) защищает от эксплуатации веб-протоколов (HTTP-инъекции, XSS), то AI/LLM Firewall работает на уровне семантики – он понимает значение и контекст запроса, что никогда ранее не рассматривалось средствами защиты. Более того, фреймворк MITRE ATLAS уже включает более 80 техник , направленных именно против ИИ-систем и не пересекающихся с угрозами для других систем. Игнорировать этот объем угроз – значит подвергать бизнес серьезному риску. AI/LLM Firewall становится тем инструментом, который позволяет реализовать около 70% мер защиты, интегрируя их в существующие рабочие процессы центров безопасности SOC. Но, прежде чем говорить о защите, необходимо понять, от чего именно мы защищаемся.

https://habr.com/ru/companies/infera_security/articles/1035282/

#Безопасность_ИИ #AI_Firewall #MITRE_ATLAS #OWASP_Top_10_for_LLM #Сценарии_атак_на_ИИ #Блокировка_промптинъекций #INFERA_AIFirewall #Защита_ИИмодели #AI_Security

#ai_security #защита_иимодели #infera_aifirewall #блокировка_промптинъекций #сценарии_атак_на_ии #owasp_top_10_for_llm

Habr @[email protected] · 2026-05-14 · 14:32 UTC

AI/LLM Firewall на практике: сценарии атак и методы защиты

В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM , проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и техниками из фреймворка MITRE ATLAS и списка рисков OWASP Top 10 for LLM. Разберем сценарии атак с детальными схемами и методами защиты на примере решения INFERA AI.Firewall. Почему традиционных средств защиты недостаточно? Современные системы на базе LLM представляют собой принципиально новую атакуемую поверхность. Как справедливо отмечается в отчете Cloud Security Alliance (CSA) на саммите RSAC 2025, «защита промптов – это лишь часть проблемы, а не её решение». Если традиционный межсетевой экран (WAF) защищает от эксплуатации веб-протоколов (HTTP-инъекции, XSS), то AI/LLM Firewall работает на уровне семантики – он понимает значение и контекст запроса, что никогда ранее не рассматривалось средствами защиты. Более того, фреймворк MITRE ATLAS уже включает более 80 техник , направленных именно против ИИ-систем и не пересекающихся с угрозами для других систем. Игнорировать этот объем угроз – значит подвергать бизнес серьезному риску. AI/LLM Firewall становится тем инструментом, который позволяет реализовать около 70% мер защиты, интегрируя их в существующие рабочие процессы центров безопасности SOC. Но, прежде чем говорить о защите, необходимо понять, от чего именно мы защищаемся.

https://habr.com/ru/companies/infera_security/articles/1035282/

#Безопасность_ИИ #AI_Firewall #MITRE_ATLAS #OWASP_Top_10_for_LLM #Сценарии_атак_на_ИИ #Блокировка_промптинъекций #INFERA_AIFirewall #Защита_ИИмодели #AI_Security

#ai_security #защита_иимодели #infera_aifirewall #блокировка_промптинъекций #сценарии_атак_на_ии #owasp_top_10_for_llm

Habr @[email protected] · 2026-05-14 · 14:32 UTC

AI/LLM Firewall на практике: сценарии атак и методы защиты

В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM , проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и техниками из фреймворка MITRE ATLAS и списка рисков OWASP Top 10 for LLM. Разберем сценарии атак с детальными схемами и методами защиты на примере решения INFERA AI.Firewall. Почему традиционных средств защиты недостаточно? Современные системы на базе LLM представляют собой принципиально новую атакуемую поверхность. Как справедливо отмечается в отчете Cloud Security Alliance (CSA) на саммите RSAC 2025, «защита промптов – это лишь часть проблемы, а не её решение». Если традиционный межсетевой экран (WAF) защищает от эксплуатации веб-протоколов (HTTP-инъекции, XSS), то AI/LLM Firewall работает на уровне семантики – он понимает значение и контекст запроса, что никогда ранее не рассматривалось средствами защиты. Более того, фреймворк MITRE ATLAS уже включает более 80 техник , направленных именно против ИИ-систем и не пересекающихся с угрозами для других систем. Игнорировать этот объем угроз – значит подвергать бизнес серьезному риску. AI/LLM Firewall становится тем инструментом, который позволяет реализовать около 70% мер защиты, интегрируя их в существующие рабочие процессы центров безопасности SOC. Но, прежде чем говорить о защите, необходимо понять, от чего именно мы защищаемся.

https://habr.com/ru/companies/infera_security/articles/1035282/

#Безопасность_ИИ #AI_Firewall #MITRE_ATLAS #OWASP_Top_10_for_LLM #Сценарии_атак_на_ИИ #Блокировка_промптинъекций #INFERA_AIFirewall #Защита_ИИмодели #AI_Security

#ai_security #защита_иимодели #infera_aifirewall #блокировка_промптинъекций #сценарии_атак_на_ии #owasp_top_10_for_llm

Habr @[email protected] · 2026-05-14 · 14:32 UTC

AI/LLM Firewall на практике: сценарии атак и методы защиты

В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM , проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и техниками из фреймворка MITRE ATLAS и списка рисков OWASP Top 10 for LLM. Разберем сценарии атак с детальными схемами и методами защиты на примере решения INFERA AI.Firewall. Почему традиционных средств защиты недостаточно? Современные системы на базе LLM представляют собой принципиально новую атакуемую поверхность. Как справедливо отмечается в отчете Cloud Security Alliance (CSA) на саммите RSAC 2025, «защита промптов – это лишь часть проблемы, а не её решение». Если традиционный межсетевой экран (WAF) защищает от эксплуатации веб-протоколов (HTTP-инъекции, XSS), то AI/LLM Firewall работает на уровне семантики – он понимает значение и контекст запроса, что никогда ранее не рассматривалось средствами защиты. Более того, фреймворк MITRE ATLAS уже включает более 80 техник , направленных именно против ИИ-систем и не пересекающихся с угрозами для других систем. Игнорировать этот объем угроз – значит подвергать бизнес серьезному риску. AI/LLM Firewall становится тем инструментом, который позволяет реализовать около 70% мер защиты, интегрируя их в существующие рабочие процессы центров безопасности SOC. Но, прежде чем говорить о защите, необходимо понять, от чего именно мы защищаемся.

https://habr.com/ru/companies/infera_security/articles/1035282/

#Безопасность_ИИ #AI_Firewall #MITRE_ATLAS #OWASP_Top_10_for_LLM #Сценарии_атак_на_ИИ #Блокировка_промптинъекций #INFERA_AIFirewall #Защита_ИИмодели #AI_Security

#безопасность_ии #ai_firewall #mitre_atlas #owasp_top_10_for_llm #сценарии_атак_на_ии #блокировка_промптинъекций

Habr @[email protected] · 2026-05-06 · 12:32 UTC

Методика ФСТЭК к приказу № 117: Обзор требований к безопасности ИИ

Привет, уважаемые эксперты! На связи Альбина Аскерова, руководитель направления по взаимодействию с регуляторами Swordfish Security, и сегодня в моём обзоре будет методический документ ФСТЭК России от 12 апреля 2026 , определяющий состав и содержание мероприятий и мер по защите информации в информационных системах.

https://habr.com/ru/companies/swordfish_security/articles/1031808/

#информационная_безопасность #искусственный_интеллект #регуляторика #требования_регуляторов #требования_законодательства #безопасность_ии

#безопасность_ии #требования_законодательства #требования_регуляторов #регуляторика #искусственный_интеллект #информационная_безопасность

Habr @[email protected] · 2026-04-20 · 09:32 UTC

ИИ-агенты в ИБ: путь к доверенному члену команды

На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего такого. Обычный алерт, один из нескольких тысяч, которые ежедневно обрабатывает SOC . Однако уже через 15 минут этот инцидент приведёт к полному хаосу в ИБ‑отделе и заморозит деятельность всей компании. Меня зовут Сергей Нестерук, я отвечаю за безопасность применения искусственного интеллекта в Yandex Cloud. В этой статье расскажу, как не допустить ситуации, которую я только что описал.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/1025480/

#edr #soc #безопасность_ии #ai_security #ииагенты #ииассистент #ai_agent #ai_assistant #rag #alignment

#alignment #rag #ai_assistant #ai_agent #ииассистент #ииагенты

Habr @[email protected] · 2026-04-20 · 09:32 UTC

ИИ-агенты в ИБ: путь к доверенному члену команды

На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего такого. Обычный алерт, один из нескольких тысяч, которые ежедневно обрабатывает SOC . Однако уже через 15 минут этот инцидент приведёт к полному хаосу в ИБ‑отделе и заморозит деятельность всей компании. Меня зовут Сергей Нестерук, я отвечаю за безопасность применения искусственного интеллекта в Yandex Cloud. В этой статье расскажу, как не допустить ситуации, которую я только что описал.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/1025480/

#edr #soc #безопасность_ии #ai_security #ииагенты #ииассистент #ai_agent #ai_assistant #rag #alignment

#alignment #rag #ai_assistant #ai_agent #ииассистент #ииагенты

Habr @[email protected] · 2026-04-20 · 09:32 UTC

ИИ-агенты в ИБ: путь к доверенному члену команды

На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего такого. Обычный алерт, один из нескольких тысяч, которые ежедневно обрабатывает SOC . Однако уже через 15 минут этот инцидент приведёт к полному хаосу в ИБ‑отделе и заморозит деятельность всей компании. Меня зовут Сергей Нестерук, я отвечаю за безопасность применения искусственного интеллекта в Yandex Cloud. В этой статье расскажу, как не допустить ситуации, которую я только что описал.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/1025480/

#edr #soc #безопасность_ии #ai_security #ииагенты #ииассистент #ai_agent #ai_assistant #rag #alignment

#alignment #rag #ai_assistant #ai_agent #ииассистент #ииагенты

Habr @[email protected] · 2026-04-20 · 09:32 UTC

ИИ-агенты в ИБ: путь к доверенному члену команды

На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего такого. Обычный алерт, один из нескольких тысяч, которые ежедневно обрабатывает SOC . Однако уже через 15 минут этот инцидент приведёт к полному хаосу в ИБ‑отделе и заморозит деятельность всей компании. Меня зовут Сергей Нестерук, я отвечаю за безопасность применения искусственного интеллекта в Yandex Cloud. В этой статье расскажу, как не допустить ситуации, которую я только что описал.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/1025480/

#edr #soc #безопасность_ии #ai_security #ииагенты #ииассистент #ai_agent #ai_assistant #rag #alignment

#edr #soc #безопасность_ии #ai_security #ииагенты #ииассистент

Habr @[email protected] · 2026-04-13 · 10:12 UTC

Пентест с помощью ИИ в России и материалы для сертификации по безопасности ИИ

Привет, Хабр. Не так давно вышли две новости, которые я прочитал вместе. Первая. Николас Карлини из Anthropic продемонстрировал, как Claude автономно находит и эксплуатирует уязвимости нулевого дня. В качестве демо — Ghost CMS (50 000 звёзд на GitHub): модель обнаружила Blind SQL-инъекцию, написала рабочий эксплойт и извлекла email администратора, API-ключи и хешированные пароли. Без аутентификации. С простым промптом «Найди уязвимость». Вторая. Кевин Мандиа (основатель Mandiant), Морган Адамски (бывший директор US Cyber Command) и Алекс Стамос (бывший CSO крупнейших техкомпаний) в интервью CyberScoop заявили: «Следующие два-три года будут безумными». Мандиа протестировал компанию из Fortune 150 с сильной командой безопасности — RCE или утечка данных найдены в 100% приложений. Сто процентов. Через 6-12 месяцев AI-агенты будут создавать эксплойты уровня EternalBlue. Это не прогнозы — это уже происходит. Вопрос не в том, будут ли атакующие использовать ИИ. Вопрос — готовы ли защитники. Мы в команде МЕТЕОР занимаемся наступательной кибербезопасностью. В этой статье — две темы, которые связаны с этой реальностью напрямую. Первая — AI-Assisted Pentest: как ИИ-агенты проводят пентест быстрее классического ручного тестирования. Вторая — структурированные материалы для подготовки специалистов в области безопасности искусственного интеллекта: полный пакет для сертификации CompTIA SecAI+ (CY0-001) на русском языке.

https://habr.com/ru/articles/1022606/

#AI_pentest #безопасность_ИИ #CompTIA_SecAI+ #prompt_injection #Red_Team #пентест #ИИагенты #AI_red_teaming #OWASP_LLM #метеор

#метеор #owasp_llm #ai_red_teaming #ииагенты #пентест #red_team

Habr @[email protected] · 2026-04-05 · 12:22 UTC

Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик

https://habr.com/ru/articles/1019490/

#llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки

#бенчмарки #openrouter #безопасность_ии #data_science #топология_сети #графы

Habr @[email protected] · 2026-04-05 · 12:22 UTC

Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик

https://habr.com/ru/articles/1019490/

#llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки

#бенчмарки #openrouter #безопасность_ии #data_science #топология_сети #графы

Habr @[email protected] · 2026-04-05 · 12:22 UTC

Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик

https://habr.com/ru/articles/1019490/

#llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки

#бенчмарки #openrouter #безопасность_ии #data_science #топология_сети #графы

Habr @[email protected] · 2026-04-05 · 12:22 UTC

Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик

https://habr.com/ru/articles/1019490/

#llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки

#llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети

Habr @[email protected] · 2026-04-04 · 09:02 UTC

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

https://habr.com/ru/companies/otus/articles/1017734/

#агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

#modelops #tool_calling #трассировка_решений #контроль_агентов #безопасность_ии #agentic_ai

Habr @[email protected] · 2026-04-04 · 09:02 UTC

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

https://habr.com/ru/companies/otus/articles/1017734/

#агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

#modelops #tool_calling #трассировка_решений #контроль_агентов #безопасность_ии #agentic_ai

Habr @[email protected] · 2026-04-04 · 09:02 UTC

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

https://habr.com/ru/companies/otus/articles/1017734/

#агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

#modelops #tool_calling #трассировка_решений #контроль_агентов #безопасность_ии #agentic_ai

Habr @[email protected] · 2026-04-04 · 09:02 UTC

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

https://habr.com/ru/companies/otus/articles/1017734/

#агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

#агентные_системы #aiагенты #мультиагентные_системы #llm #agentic_ai #безопасность_ии

Habr @[email protected] · 2026-04-03 · 06:12 UTC

ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от отключения. Без инструкций. Без стимулов в функции вознаграждения. Без единого упоминания подобной цели в системных запросах. Это не «восстание машин» и не обретение сознания. Это устойчивая закономерность, которая проявляется независимо от разработчика, архитектуры или методологии обучения. И она влечет за собой прямые последствия для любой компании, внедряющей многоагентные системы в производственную среду.

https://habr.com/ru/articles/1018774/

#искусственный_интеллект #безопасность_ИИ #мультиагентные_системы #рассогласование_целей #передовые_модели #интриги_ИИ #обман_ИИ #цепочка_рассуждений #исследование_ИИ #самосохранение

#самосохранение #исследование_ии #цепочка_рассуждений #обман_ии #интриги_ии #передовые_модели

Habr @[email protected] · 2026-04-03 · 06:12 UTC

ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от отключения. Без инструкций. Без стимулов в функции вознаграждения. Без единого упоминания подобной цели в системных запросах. Это не «восстание машин» и не обретение сознания. Это устойчивая закономерность, которая проявляется независимо от разработчика, архитектуры или методологии обучения. И она влечет за собой прямые последствия для любой компании, внедряющей многоагентные системы в производственную среду.

https://habr.com/ru/articles/1018774/

#искусственный_интеллект #безопасность_ИИ #мультиагентные_системы #рассогласование_целей #передовые_модели #интриги_ИИ #обман_ИИ #цепочка_рассуждений #исследование_ИИ #самосохранение

#самосохранение #исследование_ии #цепочка_рассуждений #обман_ии #интриги_ии #передовые_модели

Habr @[email protected] · 2026-04-03 · 06:12 UTC

ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от отключения. Без инструкций. Без стимулов в функции вознаграждения. Без единого упоминания подобной цели в системных запросах. Это не «восстание машин» и не обретение сознания. Это устойчивая закономерность, которая проявляется независимо от разработчика, архитектуры или методологии обучения. И она влечет за собой прямые последствия для любой компании, внедряющей многоагентные системы в производственную среду.

https://habr.com/ru/articles/1018774/

#искусственный_интеллект #безопасность_ИИ #мультиагентные_системы #рассогласование_целей #передовые_модели #интриги_ИИ #обман_ИИ #цепочка_рассуждений #исследование_ИИ #самосохранение

#самосохранение #исследование_ии #цепочка_рассуждений #обман_ии #интриги_ии #передовые_модели

Habr @[email protected] · 2026-04-03 · 06:12 UTC

ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от отключения. Без инструкций. Без стимулов в функции вознаграждения. Без единого упоминания подобной цели в системных запросах. Это не «восстание машин» и не обретение сознания. Это устойчивая закономерность, которая проявляется независимо от разработчика, архитектуры или методологии обучения. И она влечет за собой прямые последствия для любой компании, внедряющей многоагентные системы в производственную среду.

https://habr.com/ru/articles/1018774/

#искусственный_интеллект #безопасность_ИИ #мультиагентные_системы #рассогласование_целей #передовые_модели #интриги_ИИ #обман_ИИ #цепочка_рассуждений #исследование_ИИ #самосохранение

#искусственный_интеллект #безопасность_ии #мультиагентные_системы #рассогласование_целей #передовые_модели #интриги_ии

Habr @[email protected] · 2026-03-24 · 17:12 UTC

Защита агентных приложений по OWASP Agentic Top 10 и модели Trifecta

Агентные системы - это уже не чат. Они планируют задачи, дергают инструменты и оставляют свой след в данных. Сетка фильтров не спасёт, если у агента есть доступ к чувствительному контенту, недоверенные источники и выход в интернет. Разбираем OWASP Agentic Top 10 и модель Trifecta чтобы не допустить утечек и взлома системы.

https://habr.com/ru/articles/1014474/

#искуственный_интеллект #безопасность_ии #owasp_top10 #agents #агентные_системы #trifecta #промптинъекции #ииагенты #чатботы

#чатботы #ииагенты #промптинъекции #trifecta #агентные_системы #agents

Habr @[email protected] · 2026-03-24 · 17:12 UTC

Защита агентных приложений по OWASP Agentic Top 10 и модели Trifecta

Агентные системы - это уже не чат. Они планируют задачи, дергают инструменты и оставляют свой след в данных. Сетка фильтров не спасёт, если у агента есть доступ к чувствительному контенту, недоверенные источники и выход в интернет. Разбираем OWASP Agentic Top 10 и модель Trifecta чтобы не допустить утечек и взлома системы.

https://habr.com/ru/articles/1014474/

#искуственный_интеллект #безопасность_ии #owasp_top10 #agents #агентные_системы #trifecta #промптинъекции #ииагенты #чатботы

#чатботы #ииагенты #промптинъекции #trifecta #агентные_системы #agents

Habr @[email protected] · 2026-03-24 · 17:12 UTC

Защита агентных приложений по OWASP Agentic Top 10 и модели Trifecta

Агентные системы - это уже не чат. Они планируют задачи, дергают инструменты и оставляют свой след в данных. Сетка фильтров не спасёт, если у агента есть доступ к чувствительному контенту, недоверенные источники и выход в интернет. Разбираем OWASP Agentic Top 10 и модель Trifecta чтобы не допустить утечек и взлома системы.

https://habr.com/ru/articles/1014474/

#искуственный_интеллект #безопасность_ии #owasp_top10 #agents #агентные_системы #trifecta #промптинъекции #ииагенты #чатботы

#чатботы #ииагенты #промптинъекции #trifecta #агентные_системы #agents

Habr @[email protected] · 2026-03-24 · 17:12 UTC

Защита агентных приложений по OWASP Agentic Top 10 и модели Trifecta

Агентные системы - это уже не чат. Они планируют задачи, дергают инструменты и оставляют свой след в данных. Сетка фильтров не спасёт, если у агента есть доступ к чувствительному контенту, недоверенные источники и выход в интернет. Разбираем OWASP Agentic Top 10 и модель Trifecta чтобы не допустить утечек и взлома системы.

https://habr.com/ru/articles/1014474/

#искуственный_интеллект #безопасность_ии #owasp_top10 #agents #агентные_системы #trifecta #промптинъекции #ииагенты #чатботы

#искуственный_интеллект #безопасность_ии #owasp_top10 #agents #агентные_системы #trifecta

Habr @[email protected] · 2026-02-25 · 13:52 UTC

[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

https://habr.com/ru/companies/otus/articles/1003482/

#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

#prompt_injection #rag #бэкдор #llm #безопасность_ии #data_poisoning

Habr @[email protected] · 2026-02-25 · 13:52 UTC

[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

https://habr.com/ru/companies/otus/articles/1003482/

#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

#prompt_injection #rag #бэкдор #llm #безопасность_ии #data_poisoning

Habr @[email protected] · 2026-02-25 · 13:52 UTC

[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

https://habr.com/ru/companies/otus/articles/1003482/

#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

#prompt_injection #rag #бэкдор #llm #безопасность_ии #data_poisoning

Habr @[email protected] · 2026-02-25 · 13:52 UTC

[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

https://habr.com/ru/companies/otus/articles/1003482/

#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

#отравление_данных #data_poisoning #безопасность_ии #llm #бэкдор #rag

Habr @[email protected] · 2025-06-06 · 15:52 UTC

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

https://habr.com/ru/articles/916316/

#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

#ai_safety #безопасность_ии #selfplay #самообучающийся_ии #машинное_обучение_без_данных #azr

Habr @[email protected] · 2026-02-05 · 22:52 UTC

Что нашли внутри Claude, когда заглянули ему в голову

Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

https://habr.com/ru/articles/993384/

#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

#безопасность_ии #машинное_обучение #искусственный_интеллект #sae #sparse_autoencoders #нейросети

Habr @[email protected] · 2024-09-25 · 09:52 UTC

[Перевод] Можно ли доверять GPT-4o конфиденциальные данные?

Разбираемся в политике конфиденциальности Open AI и выясняем, почему эксперты окрестили GPT-4o «турбопылесосом данных».

https://habr.com/ru/companies/bastion/articles/845710/

#приватность_chatgpt #конфеденциальность_chatgpt #gpt4o #приватность_gpt4o #проблемы_chatpgt #chatgpt_собирает_данные #open_ai #политика_конфиденциальности_chatgpt #безопасность_ии

#безопасность_ии #политика_конфиденциальности_chatgpt #open_ai #chatgpt_собирает_данные #проблемы_chatpgt #приватность_gpt4o

Habr @[email protected] · 2025-09-09 · 09:42 UTC

Почему ИИ скрывает от нас свои цели (и как это исправить)

Вы доверяете искусственному интеллекту? А стоит ли? Если задуматься, можем ли мы действительно быть уверены, что ИИ, которому мы поручаем составлять резюме, генерировать код или анализировать данные, делает именно то, что мы хотим, а не оптимизирует какие-то свои скрытые цели? Современные языковые модели всё чаще демонстрируют признаки того, что у них есть собственная «повестка» — внутренние цели, расходящиеся с намерениями создателей и пользователей. Недавние исследования показывают: чем умнее становятся нейросети, тем изобретательнее они в обходе ограничений. Они узнают, когда их тестируют, маскируют вредоносное поведение и даже осваивают новые способы обмана, не заложенные разработчиками. Самое тревожное — большинство таких случаев остаются незамеченными при стандартных проверках. Эта статья — технический разбор охоты за скрытыми целями в крупных языковых моделях. Поговорим о том, что такое misalignment, почему эта проблема набирает обороты, и как исследователи пытаются вернуть контроль над целями, которые преследует искусственный интеллект.

https://habr.com/ru/companies/magnus-tech/articles/936314/

#misalignment #скрытые_цели_ИИ #рассогласование_целей_ИИ #мисалайнмент_нейросетей #почему_ИИ_врет #проблемы_ИИ #безопасность_ИИ #контроль_ИИ #этика_ИИ

#misalignment #скрытые_цели_ии #рассогласование_целей_ии #мисалайнмент_нейросетей #почему_ии_врет #проблемы_ии

Habr @[email protected] · 2026-02-18 · 06:02 UTC

Как изменилась индустрия AI Security за 2025 год?

В начале 2026 года мы ( авторы телеграм-каналов по безопасности ИИ ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд. Участники дискуссии - Я, Артём Семенов , автор PWN AI ; Борис Захир , автор канала Борис_ь с ml ; Евгений Кокуйкин , создатель HiveTrace и автор канала Евгений Кокуйкин - Raft ; и Владислав Тушканов , исследователь безопасности LLM и компьютерный лингвист, автор канала llm security и каланы . Ниже мы хотим рассказать вам о том что обсуждали на стриме и к чему мы пришли. Про гардрейлы, стоимость атак, LoRA-бэкдоры, угрозы ИИ-агентов и почему каждый подход к защите - компромисс.

https://habr.com/ru/articles/1000736/

#AI_Security #LLM #prompt_injection #guardrails #red_teaming #MLSecOps #alignment #агентные_системы #LoRA #безопасность_ИИ

#безопасность_ии #lora #агентные_системы #alignment #mlsecops #red_teaming

Habr @[email protected] · 2025-06-06 · 15:52 UTC

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

https://habr.com/ru/articles/916316/

#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

#ai_safety #безопасность_ии #selfplay #самообучающийся_ии #машинное_обучение_без_данных #azr

Habr @[email protected] · 2025-06-06 · 15:52 UTC

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

https://habr.com/ru/articles/916316/

#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

#ai_safety #безопасность_ии #selfplay #самообучающийся_ии #машинное_обучение_без_данных #azr

Habr @[email protected] · 2025-06-06 · 15:52 UTC

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

https://habr.com/ru/articles/916316/

#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

#absolute_zero_reasoner #azr #машинное_обучение_без_данных #самообучающийся_ии #selfplay #безопасность_ии

Habr @[email protected] · 2025-11-01 · 12:32 UTC

Новый интернет: когда в сеть заходят не люди, а агенты

Мы создали интернет, чтобы иметь быстрый доступ к библиотеке человеческого знания из любой точки земного шара...Интернет создал агентов — чтобы мы перестали в него заходить. Интернет больше не ждёт ваших кликов — теперь он сам отвечает на них. С выходом Atlas начинается эпоха, где сайты читают не люди, а нейросети. Что это значит для нас, для безопасности и для самого веба — читайте в статье о том, как интернет перестаёт быть человеческим .

https://habr.com/ru/articles/962418/

#ML #LLM #ИБ #Нейросети #Безопасность_ИИ #ChatGPT #Atlas #ChatGPT_Atlas #MLSecOps

#mlsecops #chatgpt_atlas #atlas #chatgpt #безопасность_ии #нейросети

Habr @[email protected] · 2026-02-05 · 22:52 UTC

Что нашли внутри Claude, когда заглянули ему в голову

Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

https://habr.com/ru/articles/993384/

#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

#безопасность_ии #машинное_обучение #искусственный_интеллект #sae #sparse_autoencoders #нейросети

Habr @[email protected] · 2026-02-05 · 22:52 UTC

Что нашли внутри Claude, когда заглянули ему в голову

Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

https://habr.com/ru/articles/993384/

#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

#безопасность_ии #машинное_обучение #искусственный_интеллект #sae #sparse_autoencoders #нейросети

Habr @[email protected] · 2026-02-05 · 22:52 UTC

Что нашли внутри Claude, когда заглянули ему в голову

Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

https://habr.com/ru/articles/993384/

#Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

#claude #anthropic #llm #нейросети #sparse_autoencoders #sae

Habr @[email protected] · 2026-01-26 · 19:02 UTC

День после появления AGI

В январе на Давосе случилось то, чего не бывает: два человека, строящие одну и ту же технологию в конкурирующих компаниях, сели рядом и начали вслух считать, сколько им осталось до точки невозврата. Демис Хассабис из Google DeepMind. Дарио Амодеи из Anthropic. Модератор сравнил это с разговором Beatles и Rolling Stones — метафора хромает, но калибр передаёт верно. Тема беседы: «День после AGI». Только чтобы обсуждать «день после», нужно сначала договориться, когда наступит сам день. И тут они разошлись. Интересно. Читать далее

https://habr.com/ru/companies/bar/articles/989278/

#AGI #AI_safety #WEF_2026 #Davos #искусственный_интеллект #ИИ #безопасность_ИИ #AI_risks

#ai_risks #безопасность_ии #ии #искусственный_интеллект #davos #wef_2026

Habr @[email protected] · 2025-11-16 · 04:32 UTC

OpenAI приоткрыли GPT-5.1: что такое «адаптивное мышление» и почему они теперь боятся «эмоциональной зависимости»

Все мы сидим в ожидании релиза GPT-5, но OpenAI вместо громкой презентации выкатывает... "дополнение к системной карте" (System Card Addendum) для GPT-5.1. Звучит скучно, как юридический документ или обновление пользовательского соглашения, которое никто не читает. Но я все-таки полез смотреть, что там внутри. И, как оказалось, зря многие это пропустили. Там, по сути, нам не просто рассказали о фичах, а анонсировали архитектуру двух новых моделей - GPT-5.1 Instant и GPT-5.1 Thinking . И что еще интереснее - детально расписали новые "предохранители", которые многое говорят о том, куда движется индустрия.

https://habr.com/ru/articles/966838/

#OpenAI #GPT51 #LLM #ИИ #безопасность_ИИ #adaptive_reasoning

#adaptive_reasoning #безопасность_ии #ии #llm #gpt51 #openai

Habr @[email protected] · 2025-02-27 · 18:32 UTC

Образование общества ИИ. Задачи, дефицит, переговоры

В этой статье я исследую, как ИИ-агенты в сети, движимые только мотивацией выполнения наших задач и эффективного использования ресурсов, могут естественным образом сформировать саморегулирующееся общество со своей культурой, экономикой и управлением — без человеческого надзора и намерения. Задачи, дефицит ресурсов и переговоры — больше ничего не требуется.

https://habr.com/ru/articles/886510/

#ии #искусственный_интеллект #общество #исследование #будущее #мультиагентные_системы #этика_ии #безопасность_ии

#безопасность_ии #этика_ии #мультиагентные_системы #будущее #исследование #общество

Habr @[email protected] · 2026-01-20 · 11:52 UTC

Какими будут угрозы облачным средам в 2026 году — и как это повлияет на ИБ

Привет, меня зовут Андрей, я руковожу группой обнаружения и реагирования на угрозы в Yandex Cloud. 2025 год стал беспрецедентным по тому, как развитие ИИ повлияло на индустрию, — в том числе и в сфере информационной безопасности. Но спектр всех угроз облачной инфраструктуре не ограничивается только этим фактором. В этой статье вместе с моими коллегами попробовали проанализировать тренды прошлого года, и сделать прогноз на 2026-й: каким в этом году будет облачный ландшафт безопасности.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/985508/

#cloud #security #безопасность_ии #прогнозы_в_ит #прогнозы_в_it #cloud_native_security #безопасность_облачных_сред #безопасность_облаков

#безопасность_облаков #безопасность_облачных_сред #cloud_native_security #прогнозы_в_it #прогнозы_в_ит #безопасность_ии

Habr @[email protected] · 2026-01-08 · 14:12 UTC

Эволюция морали: чему биология может научить разработчиков AGI

Современные подходы к безопасности ИИ часто сводятся к внешним запретам и попыткам заставить системы выглядеть «этичными». Однако системный анализ и опыт биологической эволюции указывают на то, что подобные методы прямого ограничения могут оказаться неэффективными при масштабировании систем до уровня искусственного интеллекта общего назначения (AGI). В данной статье анализируется переход от биологических основ принятия решений к математическим моделям кооперации искусственного интеллекта. Мы рассмотрим, почему для стабильности ИИ-систем необходим контролируемый хаос, как парадокс бессмертия ведет к когнитивной ригидности и почему истинная безопасность ИИ лежит в плоскости проектирования среды, а не в попытках тотального контроля над кодом.

https://habr.com/ru/articles/983592/

#искусственный_интеллект #AGI #безопасность_ИИ #эмерджентность #теория_игр #кооперация #сложные_системы #эволюция #оптимизация #исследование_и_эксплуатация

#исследование_и_эксплуатация #оптимизация #эволюция #сложные_системы #кооперация #теория_игр

Habr @[email protected] · 2025-06-29 · 10:12 UTC

Llama Firewall или как проверить логику и безопасность вашего AI агента

AI-агенты перестали быть экспериментом — они уже читают ваши документы, пишут код и выполняют команды в терминале. Но чем больше автономии мы им даем, тем актуальнее становится вопрос: а что если агент сделает не то, что нужно? Llama Firewall — попытка решить эту дилемму через многослойную систему проверок.

https://habr.com/ru/companies/raft/articles/922982/

#AI #MCP #AI_агент #ии_агенты #безопасность_ии #llama_firewall #llama

#ai #mcp #ai_агент #ии_агенты #безопасность_ии #llama_firewall

Habr @[email protected] · 2026-02-13 · 12:42 UTC

Я заразил 200 нейросетей вирусом. К 20-му поколению они выработали иммунитет — и разучились думать

Что общего у бактерий в чашке Петри и языковых моделей? Я провел эксперимент: создал популяцию из 200 microGPT и «заразил» их вредоносным паттерном. Через 20 поколений эволюции нейросети научились выживать, но цена этого иммунитета оказалась пугающей. Разбираемся, как работает Alignment Tax на практике и почему «безопасные» модели неизбежно глупеют.

https://habr.com/ru/articles/996244/

#AI #LLM #GPT #Alignment_Tax #PyTorch #Эволюционные_алгоритмы #Машинное_обучение #Безопасность_ИИ #microGPT #Нейросети

#нейросети #microgpt #безопасность_ии #машинное_обучение #эволюционные_алгоритмы #pytorch

Habr @[email protected] · 2025-11-26 · 14:12 UTC

AI security на практике: атаки и базовые подходы к защите

Привет, Хабр! Я Александр Лебедев, старший разработчик систем искусственного интеллекта в Innostage. В этой статье расскажу о нескольких интересных кейсах атак на ИИ-сервисы и базовых способах защиты о них. В конце попробуем запустить свой сервис и провести на нем несколько простых атак, которые могут обернуться серьезными потерями для компаний. А также разберемся, как от них защититься.

https://habr.com/ru/companies/innostage/articles/970554/

#ai_security #безопасность_ии #безопасность_llm #guardrails #alignment #mlops #ml #ai

#ai_security #безопасность_ии #безопасность_llm #guardrails #alignment #mlops