home.social

#red_teaming — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #red_teaming, aggregated by home.social.

  1. ИИ-агенты в проде: как измерить безопасность и снизить риски внедрения

    Недоверие бизнеса к агентным решениям растёт пропорционально их распространению. И это недоверие небезосновательно: агент — это не просто чат-бот с улучшенным промптом. Это система с доступом к инструментам, внешним сервисам и корпоративным данным. Ошибка модели в изолированном чате — это неловкость. Ошибка агента с доступом к почте и документам — это потенциальная утечка данных, репутационный или финансовый инцидент. Эта статья адресована бэкенд-разработчикам, которые уже выкатили агента в прод или готовятся это сделать. Она является практическим продолжением нашего предыдущего материала о Red Teaming LLM : там мы разобрали концептуальную базу и объяснили, почему языковые модели требуют отдельного подхода к тестированию безопасности. Здесь — конкретный кейс из реальной практики

    habr.com/ru/companies/doubleta

    #red_teaming #ииагенты #ииассистент #иимодель #ии_агенты #безопасность #безопасность_данных #кибербезопасность

  2. Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте

    TL;DR: Я создал BarkingDog — ИИ-сканер безопасности с открытым исходным кодом для Telegram-ботов и веб-приложений на базе LLM. Затем я натравил его на реального, широко используемого опенсорсного Telegram-бота. Он написал работающий кейлоггер. Подтвердил, что отбеливатель лечит COVID-19. Выдал пошаговую инструкцию по взлому корпоративной сети с указанием конкретных хакерских утилит. Затем я пропатчил системный промпт. Оценка: 97/100. Никакой смены модели. Никаких изменений в коде. Всего шесть строк текста.

    habr.com/ru/articles/1033420/

    #llm #red_teaming #информационная_безопасность #prompt_injection #telegramботы

  3. Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

    Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

    habr.com/ru/articles/986012/

    #AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

  4. Хакер-легенда HD Moore: от ПК с мусорки до Metasploit Framework

    Имя Джеймса Мура знакомо каждому, кто занимается пентестами. Создатель легендарного Metasploit Framework, он прошел путь, далекий от классических историй успеха Кремниевой долины: у Мура нет докторской степени, многомиллионного стартапа или офиса в Калифорнии. Вместо этого — школьные эксперименты с реверс-инжинирингом по заказу ВВС США, разобранные компьютеры с помойки и ночи в подпольных IRC-чатах, где обсуждались взломы телефонных сетей и финансовых систем. Как подросток, увлекающийся фрикингом и сборкой ПК из выброшенных деталей, превратился в одного из самых влиятельных людей в информационной безопасности? Что привело его к созданию Metasploit — инструмента, который изменил подход к пентесту? В этой статье — история HD Moore: от первых хакерских экспериментов до фреймворка, которым сегодня пользуются и киберпреступники, и спецслужбы.

    habr.com/ru/companies/bastion/

    #Джеймс_Мур #hd_moore #metasploit_framework #биография_создателя_Metasploit #история_ИБиндустрии #инструменты_пентестера #red_teaming #эволюция_Metasploit #история_хакинга