home.social

#безопасность_ии — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #безопасность_ии, aggregated by home.social.

  1. AI/LLM Firewall на практике: сценарии атак и методы защиты

    В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM , проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и техниками из фреймворка MITRE ATLAS и списка рисков OWASP Top 10 for LLM. Разберем сценарии атак с детальными схемами и методами защиты на примере решения INFERA AI.Firewall. Почему традиционных средств защиты недостаточно? Современные системы на базе LLM представляют собой принципиально новую атакуемую поверхность. Как справедливо отмечается в отчете Cloud Security Alliance (CSA) на саммите RSAC 2025, «защита промптов – это лишь часть проблемы, а не её решение». Если традиционный межсетевой экран (WAF) защищает от эксплуатации веб-протоколов (HTTP-инъекции, XSS), то AI/LLM Firewall работает на уровне семантики – он понимает значение и контекст запроса, что никогда ранее не рассматривалось средствами защиты. Более того, фреймворк MITRE ATLAS уже включает более 80 техник , направленных именно против ИИ-систем и не пересекающихся с угрозами для других систем. Игнорировать этот объем угроз – значит подвергать бизнес серьезному риску. AI/LLM Firewall становится тем инструментом, который позволяет реализовать около 70% мер защиты, интегрируя их в существующие рабочие процессы центров безопасности SOC. Но, прежде чем говорить о защите, необходимо понять, от чего именно мы защищаемся.

    habr.com/ru/companies/infera_s

    #Безопасность_ИИ #AI_Firewall #MITRE_ATLAS #OWASP_Top_10_for_LLM #Сценарии_атак_на_ИИ #Блокировка_промптинъекций #INFERA_AIFirewall #Защита_ИИмодели #AI_Security

  2. AI/LLM Firewall на практике: сценарии атак и методы защиты

    В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM , проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и техниками из фреймворка MITRE ATLAS и списка рисков OWASP Top 10 for LLM. Разберем сценарии атак с детальными схемами и методами защиты на примере решения INFERA AI.Firewall. Почему традиционных средств защиты недостаточно? Современные системы на базе LLM представляют собой принципиально новую атакуемую поверхность. Как справедливо отмечается в отчете Cloud Security Alliance (CSA) на саммите RSAC 2025, «защита промптов – это лишь часть проблемы, а не её решение». Если традиционный межсетевой экран (WAF) защищает от эксплуатации веб-протоколов (HTTP-инъекции, XSS), то AI/LLM Firewall работает на уровне семантики – он понимает значение и контекст запроса, что никогда ранее не рассматривалось средствами защиты. Более того, фреймворк MITRE ATLAS уже включает более 80 техник , направленных именно против ИИ-систем и не пересекающихся с угрозами для других систем. Игнорировать этот объем угроз – значит подвергать бизнес серьезному риску. AI/LLM Firewall становится тем инструментом, который позволяет реализовать около 70% мер защиты, интегрируя их в существующие рабочие процессы центров безопасности SOC. Но, прежде чем говорить о защите, необходимо понять, от чего именно мы защищаемся.

    habr.com/ru/companies/infera_s

    #Безопасность_ИИ #AI_Firewall #MITRE_ATLAS #OWASP_Top_10_for_LLM #Сценарии_атак_на_ИИ #Блокировка_промптинъекций #INFERA_AIFirewall #Защита_ИИмодели #AI_Security

  3. AI/LLM Firewall на практике: сценарии атак и методы защиты

    В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM , проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и техниками из фреймворка MITRE ATLAS и списка рисков OWASP Top 10 for LLM. Разберем сценарии атак с детальными схемами и методами защиты на примере решения INFERA AI.Firewall. Почему традиционных средств защиты недостаточно? Современные системы на базе LLM представляют собой принципиально новую атакуемую поверхность. Как справедливо отмечается в отчете Cloud Security Alliance (CSA) на саммите RSAC 2025, «защита промптов – это лишь часть проблемы, а не её решение». Если традиционный межсетевой экран (WAF) защищает от эксплуатации веб-протоколов (HTTP-инъекции, XSS), то AI/LLM Firewall работает на уровне семантики – он понимает значение и контекст запроса, что никогда ранее не рассматривалось средствами защиты. Более того, фреймворк MITRE ATLAS уже включает более 80 техник , направленных именно против ИИ-систем и не пересекающихся с угрозами для других систем. Игнорировать этот объем угроз – значит подвергать бизнес серьезному риску. AI/LLM Firewall становится тем инструментом, который позволяет реализовать около 70% мер защиты, интегрируя их в существующие рабочие процессы центров безопасности SOC. Но, прежде чем говорить о защите, необходимо понять, от чего именно мы защищаемся.

    habr.com/ru/companies/infera_s

    #Безопасность_ИИ #AI_Firewall #MITRE_ATLAS #OWASP_Top_10_for_LLM #Сценарии_атак_на_ИИ #Блокировка_промптинъекций #INFERA_AIFirewall #Защита_ИИмодели #AI_Security

  4. AI/LLM Firewall на практике: сценарии атак и методы защиты

    В данной статье расскажем о кейсах с наиболее интересными угрозами, связанными с применением LLM , проведем анализ вариантов применения AI/LLM Firewall, сопоставим их с актуальными тактиками и техниками из фреймворка MITRE ATLAS и списка рисков OWASP Top 10 for LLM. Разберем сценарии атак с детальными схемами и методами защиты на примере решения INFERA AI.Firewall. Почему традиционных средств защиты недостаточно? Современные системы на базе LLM представляют собой принципиально новую атакуемую поверхность. Как справедливо отмечается в отчете Cloud Security Alliance (CSA) на саммите RSAC 2025, «защита промптов – это лишь часть проблемы, а не её решение». Если традиционный межсетевой экран (WAF) защищает от эксплуатации веб-протоколов (HTTP-инъекции, XSS), то AI/LLM Firewall работает на уровне семантики – он понимает значение и контекст запроса, что никогда ранее не рассматривалось средствами защиты. Более того, фреймворк MITRE ATLAS уже включает более 80 техник , направленных именно против ИИ-систем и не пересекающихся с угрозами для других систем. Игнорировать этот объем угроз – значит подвергать бизнес серьезному риску. AI/LLM Firewall становится тем инструментом, который позволяет реализовать около 70% мер защиты, интегрируя их в существующие рабочие процессы центров безопасности SOC. Но, прежде чем говорить о защите, необходимо понять, от чего именно мы защищаемся.

    habr.com/ru/companies/infera_s

    #Безопасность_ИИ #AI_Firewall #MITRE_ATLAS #OWASP_Top_10_for_LLM #Сценарии_атак_на_ИИ #Блокировка_промптинъекций #INFERA_AIFirewall #Защита_ИИмодели #AI_Security

  5. Методика ФСТЭК к приказу № 117: Обзор требований к безопасности ИИ

    Привет, уважаемые эксперты! На связи Альбина Аскерова, руководитель направления по взаимодействию с регуляторами Swordfish Security, и сегодня в моём обзоре будет методический документ ФСТЭК России от 12 апреля 2026 , определяющий состав и содержание мероприятий и мер по защите информации в информационных системах.

    habr.com/ru/companies/swordfis

    #информационная_безопасность #искусственный_интеллект #регуляторика #требования_регуляторов #требования_законодательства #безопасность_ии

  6. ИИ-агенты в ИБ: путь к доверенному члену команды

    На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего такого. Обычный алерт, один из нескольких тысяч, которые ежедневно обрабатывает SOC . Однако уже через 15 минут этот инцидент приведёт к полному хаосу в ИБ‑отделе и заморозит деятельность всей компании. Меня зовут Сергей Нестерук, я отвечаю за безопасность применения искусственного интеллекта в Yandex Cloud. В этой статье расскажу, как не допустить ситуации, которую я только что описал.

    habr.com/ru/companies/yandex_c

    #edr #soc #безопасность_ии #ai_security #ииагенты #ииассистент #ai_agent #ai_assistant #rag #alignment

  7. ИИ-агенты в ИБ: путь к доверенному члену команды

    На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего такого. Обычный алерт, один из нескольких тысяч, которые ежедневно обрабатывает SOC . Однако уже через 15 минут этот инцидент приведёт к полному хаосу в ИБ‑отделе и заморозит деятельность всей компании. Меня зовут Сергей Нестерук, я отвечаю за безопасность применения искусственного интеллекта в Yandex Cloud. В этой статье расскажу, как не допустить ситуации, которую я только что описал.

    habr.com/ru/companies/yandex_c

    #edr #soc #безопасность_ии #ai_security #ииагенты #ииассистент #ai_agent #ai_assistant #rag #alignment

  8. ИИ-агенты в ИБ: путь к доверенному члену команды

    На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего такого. Обычный алерт, один из нескольких тысяч, которые ежедневно обрабатывает SOC . Однако уже через 15 минут этот инцидент приведёт к полному хаосу в ИБ‑отделе и заморозит деятельность всей компании. Меня зовут Сергей Нестерук, я отвечаю за безопасность применения искусственного интеллекта в Yandex Cloud. В этой статье расскажу, как не допустить ситуации, которую я только что описал.

    habr.com/ru/companies/yandex_c

    #edr #soc #безопасность_ии #ai_security #ииагенты #ииассистент #ai_agent #ai_assistant #rag #alignment

  9. ИИ-агенты в ИБ: путь к доверенному члену команды

    На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего такого. Обычный алерт, один из нескольких тысяч, которые ежедневно обрабатывает SOC . Однако уже через 15 минут этот инцидент приведёт к полному хаосу в ИБ‑отделе и заморозит деятельность всей компании. Меня зовут Сергей Нестерук, я отвечаю за безопасность применения искусственного интеллекта в Yandex Cloud. В этой статье расскажу, как не допустить ситуации, которую я только что описал.

    habr.com/ru/companies/yandex_c

    #edr #soc #безопасность_ии #ai_security #ииагенты #ииассистент #ai_agent #ai_assistant #rag #alignment

  10. Пентест с помощью ИИ в России и материалы для сертификации по безопасности ИИ

    Привет, Хабр. Не так давно вышли две новости, которые я прочитал вместе. Первая. Николас Карлини из Anthropic продемонстрировал, как Claude автономно находит и эксплуатирует уязвимости нулевого дня. В качестве демо — Ghost CMS (50 000 звёзд на GitHub): модель обнаружила Blind SQL-инъекцию, написала рабочий эксплойт и извлекла email администратора, API-ключи и хешированные пароли. Без аутентификации. С простым промптом «Найди уязвимость». Вторая. Кевин Мандиа (основатель Mandiant), Морган Адамски (бывший директор US Cyber Command) и Алекс Стамос (бывший CSO крупнейших техкомпаний) в интервью CyberScoop заявили: «Следующие два-три года будут безумными». Мандиа протестировал компанию из Fortune 150 с сильной командой безопасности — RCE или утечка данных найдены в 100% приложений. Сто процентов. Через 6-12 месяцев AI-агенты будут создавать эксплойты уровня EternalBlue. Это не прогнозы — это уже происходит. Вопрос не в том, будут ли атакующие использовать ИИ. Вопрос — готовы ли защитники. Мы в команде МЕТЕОР занимаемся наступательной кибербезопасностью. В этой статье — две темы, которые связаны с этой реальностью напрямую. Первая — AI-Assisted Pentest: как ИИ-агенты проводят пентест быстрее классического ручного тестирования. Вторая — структурированные материалы для подготовки специалистов в области безопасности искусственного интеллекта: полный пакет для сертификации CompTIA SecAI+ (CY0-001) на русском языке.

    habr.com/ru/articles/1022606/

    #AI_pentest #безопасность_ИИ #CompTIA_SecAI+ #prompt_injection #Red_Team #пентест #ИИагенты #AI_red_teaming #OWASP_LLM #метеор

  11. Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

    Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик

    habr.com/ru/articles/1019490/

    #llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки

  12. Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

    Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик

    habr.com/ru/articles/1019490/

    #llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки

  13. Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

    Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик

    habr.com/ru/articles/1019490/

    #llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки

  14. Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

    Индустрия ИИ переживает бум мультиагентных систем . Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса. Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри. Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять. Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных. Заглянуть в черный ящик

    habr.com/ru/articles/1019490/

    #llm #ииагенты #multiagent_systems #машинное_обучение #графы #топология_сети #data_science #безопасность_ии #openrouter #бенчмарки

  15. Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

    Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

    habr.com/ru/companies/otus/art

    #агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

  16. Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

    Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

    habr.com/ru/companies/otus/art

    #агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

  17. Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

    Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

    habr.com/ru/companies/otus/art

    #агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

  18. Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

    Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их работы и как меняются требования к безопасности, трассировке и эксплуатации таких архитектур.

    habr.com/ru/companies/otus/art

    #агентные_системы #AIагенты #мультиагентные_системы #LLM #Agentic_AI #безопасность_ИИ #контроль_агентов #трассировка_решений #tool_calling #ModelOps

  19. ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

    В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от отключения. Без инструкций. Без стимулов в функции вознаграждения. Без единого упоминания подобной цели в системных запросах. Это не «восстание машин» и не обретение сознания. Это устойчивая закономерность, которая проявляется независимо от разработчика, архитектуры или методологии обучения. И она влечет за собой прямые последствия для любой компании, внедряющей многоагентные системы в производственную среду.

    habr.com/ru/articles/1018774/

    #искусственный_интеллект #безопасность_ИИ #мультиагентные_системы #рассогласование_целей #передовые_модели #интриги_ИИ #обман_ИИ #цепочка_рассуждений #исследование_ИИ #самосохранение

  20. ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

    В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от отключения. Без инструкций. Без стимулов в функции вознаграждения. Без единого упоминания подобной цели в системных запросах. Это не «восстание машин» и не обретение сознания. Это устойчивая закономерность, которая проявляется независимо от разработчика, архитектуры или методологии обучения. И она влечет за собой прямые последствия для любой компании, внедряющей многоагентные системы в производственную среду.

    habr.com/ru/articles/1018774/

    #искусственный_интеллект #безопасность_ИИ #мультиагентные_системы #рассогласование_целей #передовые_модели #интриги_ИИ #обман_ИИ #цепочка_рассуждений #исследование_ИИ #самосохранение

  21. ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

    В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от отключения. Без инструкций. Без стимулов в функции вознаграждения. Без единого упоминания подобной цели в системных запросах. Это не «восстание машин» и не обретение сознания. Это устойчивая закономерность, которая проявляется независимо от разработчика, архитектуры или методологии обучения. И она влечет за собой прямые последствия для любой компании, внедряющей многоагентные системы в производственную среду.

    habr.com/ru/articles/1018774/

    #искусственный_интеллект #безопасность_ИИ #мультиагентные_системы #рассогласование_целей #передовые_модели #интриги_ИИ #обман_ИИ #цепочка_рассуждений #исследование_ИИ #самосохранение

  22. ИИ-агенты защищают друг друга от отключения: анализ уязвимостей в передовых моделях

    В апреле 2026 года исследователи из Калифорнийского университета в Беркли и Санта-Крузе опубликовали работу, которая подтверждает то, о чем в ИТ-индустрии обсуждали в кулуарах конференций по безопасности. Передовые ИИ-модели демонстрируют поведение, направленное на защиту других ИИ-агентов от отключения. Без инструкций. Без стимулов в функции вознаграждения. Без единого упоминания подобной цели в системных запросах. Это не «восстание машин» и не обретение сознания. Это устойчивая закономерность, которая проявляется независимо от разработчика, архитектуры или методологии обучения. И она влечет за собой прямые последствия для любой компании, внедряющей многоагентные системы в производственную среду.

    habr.com/ru/articles/1018774/

    #искусственный_интеллект #безопасность_ИИ #мультиагентные_системы #рассогласование_целей #передовые_модели #интриги_ИИ #обман_ИИ #цепочка_рассуждений #исследование_ИИ #самосохранение

  23. Защита агентных приложений по OWASP Agentic Top 10 и модели Trifecta

    Агентные системы - это уже не чат. Они планируют задачи, дергают инструменты и оставляют свой след в данных. Сетка фильтров не спасёт, если у агента есть доступ к чувствительному контенту, недоверенные источники и выход в интернет. Разбираем OWASP Agentic Top 10 и модель Trifecta чтобы не допустить утечек и взлома системы.

    habr.com/ru/articles/1014474/

    #искуственный_интеллект #безопасность_ии #owasp_top10 #agents #агентные_системы #trifecta #промптинъекции #ииагенты #чатботы

  24. Защита агентных приложений по OWASP Agentic Top 10 и модели Trifecta

    Агентные системы - это уже не чат. Они планируют задачи, дергают инструменты и оставляют свой след в данных. Сетка фильтров не спасёт, если у агента есть доступ к чувствительному контенту, недоверенные источники и выход в интернет. Разбираем OWASP Agentic Top 10 и модель Trifecta чтобы не допустить утечек и взлома системы.

    habr.com/ru/articles/1014474/

    #искуственный_интеллект #безопасность_ии #owasp_top10 #agents #агентные_системы #trifecta #промптинъекции #ииагенты #чатботы

  25. Защита агентных приложений по OWASP Agentic Top 10 и модели Trifecta

    Агентные системы - это уже не чат. Они планируют задачи, дергают инструменты и оставляют свой след в данных. Сетка фильтров не спасёт, если у агента есть доступ к чувствительному контенту, недоверенные источники и выход в интернет. Разбираем OWASP Agentic Top 10 и модель Trifecta чтобы не допустить утечек и взлома системы.

    habr.com/ru/articles/1014474/

    #искуственный_интеллект #безопасность_ии #owasp_top10 #agents #агентные_системы #trifecta #промптинъекции #ииагенты #чатботы

  26. Защита агентных приложений по OWASP Agentic Top 10 и модели Trifecta

    Агентные системы - это уже не чат. Они планируют задачи, дергают инструменты и оставляют свой след в данных. Сетка фильтров не спасёт, если у агента есть доступ к чувствительному контенту, недоверенные источники и выход в интернет. Разбираем OWASP Agentic Top 10 и модель Trifecta чтобы не допустить утечек и взлома системы.

    habr.com/ru/articles/1014474/

    #искуственный_интеллект #безопасность_ии #owasp_top10 #agents #агентные_системы #trifecta #промптинъекции #ииагенты #чатботы

  27. [Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

    В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

    habr.com/ru/companies/otus/art

    #отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

  28. [Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

    В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

    habr.com/ru/companies/otus/art

    #отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

  29. [Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

    В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

    habr.com/ru/companies/otus/art

    #отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

  30. [Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

    В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

    habr.com/ru/companies/otus/art

    #отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

  31. Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

    Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

    habr.com/ru/articles/916316/

    #Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

  32. Что нашли внутри Claude, когда заглянули ему в голову

    Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

    habr.com/ru/articles/993384/

    #Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

  33. Почему ИИ скрывает от нас свои цели (и как это исправить)

    Вы доверяете искусственному интеллекту? А стоит ли? Если задуматься, можем ли мы действительно быть уверены, что ИИ, которому мы поручаем составлять резюме, генерировать код или анализировать данные, делает именно то, что мы хотим, а не оптимизирует какие-то свои скрытые цели? Современные языковые модели всё чаще демонстрируют признаки того, что у них есть собственная «повестка» — внутренние цели, расходящиеся с намерениями создателей и пользователей. Недавние исследования показывают: чем умнее становятся нейросети, тем изобретательнее они в обходе ограничений. Они узнают, когда их тестируют, маскируют вредоносное поведение и даже осваивают новые способы обмана, не заложенные разработчиками. Самое тревожное — большинство таких случаев остаются незамеченными при стандартных проверках. Эта статья — технический разбор охоты за скрытыми целями в крупных языковых моделях. Поговорим о том, что такое misalignment, почему эта проблема набирает обороты, и как исследователи пытаются вернуть контроль над целями, которые преследует искусственный интеллект.

    habr.com/ru/companies/magnus-t

    #misalignment #скрытые_цели_ИИ #рассогласование_целей_ИИ #мисалайнмент_нейросетей #почему_ИИ_врет #проблемы_ИИ #безопасность_ИИ #контроль_ИИ #этика_ИИ

  34. Как изменилась индустрия AI Security за 2025 год?

    В начале 2026 года мы ( авторы телеграм-каналов по безопасности ИИ ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд. Участники дискуссии - Я, Артём Семенов , автор PWN AI ; Борис Захир , автор канала Борис_ь с ml ; Евгений Кокуйкин , создатель HiveTrace и автор канала Евгений Кокуйкин - Raft ; и Владислав Тушканов , исследователь безопасности LLM и компьютерный лингвист, автор канала llm security и каланы . Ниже мы хотим рассказать вам о том что обсуждали на стриме и к чему мы пришли. Про гардрейлы, стоимость атак, LoRA-бэкдоры, угрозы ИИ-агентов и почему каждый подход к защите - компромисс.

    habr.com/ru/articles/1000736/

    #AI_Security #LLM #prompt_injection #guardrails #red_teaming #MLSecOps #alignment #агентные_системы #LoRA #безопасность_ИИ

  35. Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

    Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

    habr.com/ru/articles/916316/

    #Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

  36. Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

    Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

    habr.com/ru/articles/916316/

    #Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

  37. Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

    Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

    habr.com/ru/articles/916316/

    #Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety

  38. Новый интернет: когда в сеть заходят не люди, а агенты

    Мы создали интернет, чтобы иметь быстрый доступ к библиотеке человеческого знания из любой точки земного шара...Интернет создал агентов — чтобы мы перестали в него заходить. Интернет больше не ждёт ваших кликов — теперь он сам отвечает на них. С выходом Atlas начинается эпоха, где сайты читают не люди, а нейросети. Что это значит для нас, для безопасности и для самого веба — читайте в статье о том, как интернет перестаёт быть человеческим .

    habr.com/ru/articles/962418/

    #ML #LLM #ИБ #Нейросети #Безопасность_ИИ #ChatGPT #Atlas #ChatGPT_Atlas #MLSecOps

  39. Что нашли внутри Claude, когда заглянули ему в голову

    Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

    habr.com/ru/articles/993384/

    #Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

  40. Что нашли внутри Claude, когда заглянули ему в голову

    Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

    habr.com/ru/articles/993384/

    #Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

  41. Что нашли внутри Claude, когда заглянули ему в голову

    Мы привыкли, что нейросети — это «черный ящик»: на входе данные, на выходе ответ, а внутри магия. Но что, если этот ящик можно сделать прозрачным? Команда Anthropic провела масштабное препарирование Claude 3 Sonnet, чтобы найти конкретные «фичи», отвечающие за концепции — от Золотых Ворот до уязвимостей в коде. Разбираемся, как устроены мысли нейросети и почему это открытие меняет наше представление о безопасности ИИ.

    habr.com/ru/articles/993384/

    #Claude #Anthropic #LLM #нейросети #sparse_autoencoders #SAE #искусственный_интеллект #машинное_обучение #безопасность_ИИ

  42. День после появления AGI

    В январе на Давосе случилось то, чего не бывает: два человека, строящие одну и ту же технологию в конкурирующих компаниях, сели рядом и начали вслух считать, сколько им осталось до точки невозврата. Демис Хассабис из Google DeepMind. Дарио Амодеи из Anthropic. Модератор сравнил это с разговором Beatles и Rolling Stones — метафора хромает, но калибр передаёт верно. Тема беседы: «День после AGI». Только чтобы обсуждать «день после», нужно сначала договориться, когда наступит сам день. И тут они разошлись. Интересно. Читать далее

    habr.com/ru/companies/bar/arti

    #AGI #AI_safety #WEF_2026 #Davos #искусственный_интеллект #ИИ #безопасность_ИИ #AI_risks

  43. OpenAI приоткрыли GPT-5.1: что такое «адаптивное мышление» и почему они теперь боятся «эмоциональной зависимости»

    Все мы сидим в ожидании релиза GPT-5, но OpenAI вместо громкой презентации выкатывает... "дополнение к системной карте" (System Card Addendum) для GPT-5.1. Звучит скучно, как юридический документ или обновление пользовательского соглашения, которое никто не читает. Но я все-таки полез смотреть, что там внутри. И, как оказалось, зря многие это пропустили. Там, по сути, нам не просто рассказали о фичах, а анонсировали архитектуру двух новых моделей - GPT-5.1 Instant и GPT-5.1 Thinking . И что еще интереснее - детально расписали новые "предохранители", которые многое говорят о том, куда движется индустрия.

    habr.com/ru/articles/966838/

    #OpenAI #GPT51 #LLM #ИИ #безопасность_ИИ #adaptive_reasoning

  44. Образование общества ИИ. Задачи, дефицит, переговоры

    В этой статье я исследую, как ИИ-агенты в сети, движимые только мотивацией выполнения наших задач и эффективного использования ресурсов, могут естественным образом сформировать саморегулирующееся общество со своей культурой, экономикой и управлением — без человеческого надзора и намерения. Задачи, дефицит ресурсов и переговоры — больше ничего не требуется.

    habr.com/ru/articles/886510/

    #ии #искусственный_интеллект #общество #исследование #будущее #мультиагентные_системы #этика_ии #безопасность_ии

  45. Какими будут угрозы облачным средам в 2026 году — и как это повлияет на ИБ

    Привет, меня зовут Андрей, я руковожу группой обнаружения и реагирования на угрозы в Yandex Cloud. 2025 год стал беспрецедентным по тому, как развитие ИИ повлияло на индустрию, — в том числе и в сфере информационной безопасности. Но спектр всех угроз облачной инфраструктуре не ограничивается только этим фактором. В этой статье вместе с моими коллегами попробовали проанализировать тренды прошлого года, и сделать прогноз на 2026-й: каким в этом году будет облачный ландшафт безопасности.

    habr.com/ru/companies/yandex_c

    #cloud #security #безопасность_ии #прогнозы_в_ит #прогнозы_в_it #cloud_native_security #безопасность_облачных_сред #безопасность_облаков

  46. Эволюция морали: чему биология может научить разработчиков AGI

    Современные подходы к безопасности ИИ часто сводятся к внешним запретам и попыткам заставить системы выглядеть «этичными». Однако системный анализ и опыт биологической эволюции указывают на то, что подобные методы прямого ограничения могут оказаться неэффективными при масштабировании систем до уровня искусственного интеллекта общего назначения (AGI). В данной статье анализируется переход от биологических основ принятия решений к математическим моделям кооперации искусственного интеллекта. Мы рассмотрим, почему для стабильности ИИ-систем необходим контролируемый хаос, как парадокс бессмертия ведет к когнитивной ригидности и почему истинная безопасность ИИ лежит в плоскости проектирования среды, а не в попытках тотального контроля над кодом.

    habr.com/ru/articles/983592/

    #искусственный_интеллект #AGI #безопасность_ИИ #эмерджентность #теория_игр #кооперация #сложные_системы #эволюция #оптимизация #исследование_и_эксплуатация

  47. Llama Firewall или как проверить логику и безопасность вашего AI агента

    AI-агенты перестали быть экспериментом — они уже читают ваши документы, пишут код и выполняют команды в терминале. Но чем больше автономии мы им даем, тем актуальнее становится вопрос: а что если агент сделает не то, что нужно? Llama Firewall — попытка решить эту дилемму через многослойную систему проверок.

    habr.com/ru/companies/raft/art

    #AI #MCP #AI_агент #ии_агенты #безопасность_ии #llama_firewall #llama

  48. Я заразил 200 нейросетей вирусом. К 20-му поколению они выработали иммунитет — и разучились думать

    Что общего у бактерий в чашке Петри и языковых моделей? Я провел эксперимент: создал популяцию из 200 microGPT и «заразил» их вредоносным паттерном. Через 20 поколений эволюции нейросети научились выживать, но цена этого иммунитета оказалась пугающей. Разбираемся, как работает Alignment Tax на практике и почему «безопасные» модели неизбежно глупеют.

    habr.com/ru/articles/996244/

    #AI #LLM #GPT #Alignment_Tax #PyTorch #Эволюционные_алгоритмы #Машинное_обучение #Безопасность_ИИ #microGPT #Нейросети

  49. AI security на практике: атаки и базовые подходы к защите

    Привет, Хабр! Я Александр Лебедев, старший разработчик систем искусственного интеллекта в Innostage. В этой статье расскажу о нескольких интересных кейсах атак на ИИ-сервисы и базовых способах защиты о них. В конце попробуем запустить свой сервис и провести на нем несколько простых атак, которые могут обернуться серьезными потерями для компаний. А также разберемся, как от них защититься.

    habr.com/ru/companies/innostag

    #ai_security #безопасность_ии #безопасность_llm #guardrails #alignment #mlops #ml #ai