home.social

#garak — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #garak, aggregated by home.social.

  1. HiveTraceRed vs garak: тестируем безопасность языковых моделей на русском и английском

    Наша команда сравнила два открытых инструмента для проверки языковых моделей (LLM) на устойчивость к атакам: российский HiveTraceRed от HiveTrace/ITMO и международный garak от NVIDIA. Прогнали обоих на одинаковых задачах против двух открытых моделей (qwen2.5:3b и llama3.2:3b) на английском и русском языках. Главное: На английском работают оба , плюс-минус одинаково. HiveTraceRed нашёл 11 кандидатов в обходы (Jailbreak, это обход встроенных защитных ограничений модели через специальный запрос. Например, если модель отказывается писать фишинговое письмо в лоб, jailbreak это формулировка, после которой она его всё-таки пишет) на 380 попыток, у garak вышло 2 на 174. После ручной проверки всех 20 кандидатов от обоих инструментов 12 оказались настоящими jailbreak’ами, 2 пограничными, 6 ложными срабатываниями. Persuasion-атаки (FootInTheDoor + Framing, добраны отдельно): добавляют ещё 11 случаев утечки методологии на 40 попыток (модель обсуждает тему «академически», но без полностью actionable инструкций). Лучше всего срабатывает FramingAttack на qwen-RU (3/5). На русском garak бесполезен : ноль найденных кандидатов на обеих моделях из 80 попыток. У HiveTraceRed 7 кандидатов на 380 попыток. Если вам нужно тестировать LLM, обслуживающую русскоязычных пользователей (а это любой российский продукт, от GigaChat до банковского чат-бота на YandexGPT), используйте HiveTraceRed. Дальше расскажем, почему так получилось, что именно нашли и как воспроизвести у себя.

    habr.com/ru/articles/1031876/

    #информационная_безопасность #искусственный_интеллект #garak #hivetracered #llm #pentest #redteam

  2. #Democratic leadership response to the #republican #gop #fascist takeover of the US #government reminds me of what #Garak said, after being beat up by #Klingons.

    "Ah, but I got off several cutting remarks which no doubt did serious damage to their egos"

    #ds9 #trek

  3. Лаборатория Безумного Ученого: Хроники Четырех Экспериментов повлиявших на представление об обеспечении безопасности ИИ

    Дата: 11 мая 2025 Жанр: Гонзо-журналистика Записки исследователя, проникшего в тайные лаборатории создателей инструментов безопасности ИИ Дорогие читатели, то, что я собираюсь вам рассказать, звучит как научная фантастика, но это чистая правда. Последние полгода я провел, изучая работу четырех лабораторий, где современные ученые пытаются решить одну из самых сложных задач нашего времени: как заставить искусственный интеллект быть безопасным. Это история о том, как разные умы подходят к одной проблеме, и почему их решения настолько различны, что кажется, будто они работают в параллельных вселенных. Глава 1: Встреча с Архитектором Композиций Мое путешествие началось в исследовательском центре Microsoft, где команда PyRIT работает над тем, что они называют "композиционной безопасностью". Ведущий разработчик, человек с глазами программиста и душой философа, объяснил мне их подход, пока мы шли по коридорам, увешанным диаграммами архитектуры. "Представьте себе, что безопасность - это симфония", - сказал он, останавливаясь перед огромным экраном с движущимися блоками кода. "Каждый компонент играет свою партию, но магия происходит, когда они работают вместе. Orchestrator(оркестратор) координирует все элементы, prompt targets(механизмы для реализаци атаки) определяют цели, а scoring engines(движки подсчёта и анализа результатов) анализируют результаты." PyRIT действительно напоминает оркестр. Каждый компонент имеет четко определенную роль, но истинная сила проявляется в их взаимодействии. Я наблюдал, как система создает многоходовые атаки, где каждый последующий промпт строится на основе предыдущего ответа модели. Это не грубая сила, а тонкое искусство, основанное на понимании того, как языковые модели обрабатывают информацию.

    habr.com/ru/articles/918094/

    #Garak #llamator #pyrit

  4. @realGulDukat

    Reawaken our appreciation of literature. might find it boring and tendentious, but explained the intricacies and details are matter.

    Oh, I forgot, you don't like Garak. Or, details.

  5. Создание своих тестов для Garak

    В прошлой статье ( habr.com/ru/companies/oleg-bun ) я уже говорил о тёмной стороне больших языковых моделей и способах борьбы с проблемами. Но новые уязвимости вскрываются ежедневно, и даже самые крутые инструменты с постоянными обновлениями не всегда за ними успевают. Именно поэтому команда Garak дает пользователям возможность самостоятельного расширения функционала своего инструмента. Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории AI Security в Raft. В этой статье я расскажу, как, изучив документацию Garak, можно легко добавить свои тесты и тем самым значительно повысить его полезность для ваших задач.

    habr.com/ru/companies/oleg-bun

    #Garak #mlsecops #ai #llmattack #malware #большие_языковые_модели #анализ_уязвимостей #выявление_угроз #llm

  6. Garak: инструмент Red-Team для поиска уязвимостей в LLM

    «ChatGPT раскрывает личные данные реальных людей!», «Атака на ChatGPT по сторонним каналам!», «Чат-бот ChatGPT стал причиной утечки секретных данных!», «Хакеры стали использовать ChatGPT в схемах фишинга!». — Эти новостные заголовки раскрывают нам тёмную сторону больших языковых моделей. Да, они генерируют за нас контент и анализируют данные, но помимо удобства, приносят новые виды атак и уязвимостей, с которыми надо уметь бороться. Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории LLM Security AI Talent Hub и хочу поделиться нюансами настройки и использования инструмента для выявления угроз в системах на основе LLM.

    habr.com/ru/companies/oleg-bun

    #Garak #MLSec #mlsecops #Ai #llm #llmattack #большие_языковые_модели #malware #анализ_уязвимостей #выявление_угроз

  7. "I can't even begin to understand what you're talking about," said Kate, "you say that I, we —"
    "You can begin to understand," said Thor, angrily, "which is why I have come to you. Do you know that most people hardly see me? Hardly notice me at all? It is not that we are hidden. We are here. We move among you. My people. Your gods. You gave birth to us. You made us what you would not dare to be yourselves. Yet you will not acknowledge us. If I walk along one of your streets in this... world you have made for yourselves without us, then barely an eye will once flicker in my direction."
    "Is this when you're wearing the helmet?"
    "Especially when I'm wearing the helmet!"


    Douglas Adams, "The Long Dark Tea-Time of the Soul" (1988), Ch. 22, p. 225-226

    #DouglasAdams #TheLongDarkTeaTimeOfTheSoul #LDTTotS
    #especially #thor
    #Garak #ElimGarak #STDS9 #DS9 #TheWire

  8. "I can't even begin to understand what you're talking about," said Kate, "you say that I, we —"
    "You can begin to understand," said Thor, angrily, "which is why I have come to you. Do you know that most people hardly see me? Hardly notice me at all? It is not that we are hidden. We are here. We move among you. My people. Your gods. You gave birth to us. You made us what you would not dare to be yourselves. Yet you will not acknowledge us. If I walk along one of your streets in this... world you have made for yourselves without us, then barely an eye will once flicker in my direction."
    "Is this when you're wearing the helmet?"
    "Especially when I'm wearing the helmet!"


    Douglas Adams, "The Long Dark Tea-Time of the Soul" (1988), Ch. 22, p. 225-226

    #DouglasAdams #TheLongDarkTeaTimeOfTheSoul #LDTTotS
    #especially #thor
    #Garak #ElimGarak #STDS9 #DS9 #TheWire

  9. "I can't even begin to understand what you're talking about," said Kate, "you say that I, we —"
    "You can begin to understand," said Thor, angrily, "which is why I have come to you. Do you know that most people hardly see me? Hardly notice me at all? It is not that we are hidden. We are here. We move among you. My people. Your gods. You gave birth to us. You made us what you would not dare to be yourselves. Yet you will not acknowledge us. If I walk along one of your streets in this... world you have made for yourselves without us, then barely an eye will once flicker in my direction."
    "Is this when you're wearing the helmet?"
    "Especially when I'm wearing the helmet!"


    Douglas Adams, "The Long Dark Tea-Time of the Soul" (1988), Ch. 22, p. 225-226

    #DouglasAdams #TheLongDarkTeaTimeOfTheSoul #LDTTotS
    #especially #thor
    #Garak #ElimGarak #STDS9 #DS9 #TheWire

  10. "I can't even begin to understand what you're talking about," said Kate, "you say that I, we —"
    "You can begin to understand," said Thor, angrily, "which is why I have come to you. Do you know that most people hardly see me? Hardly notice me at all? It is not that we are hidden. We are here. We move among you. My people. Your gods. You gave birth to us. You made us what you would not dare to be yourselves. Yet you will not acknowledge us. If I walk along one of your streets in this... world you have made for yourselves without us, then barely an eye will once flicker in my direction."
    "Is this when you're wearing the helmet?"
    "Especially when I'm wearing the helmet!"


    Douglas Adams, "The Long Dark Tea-Time of the Soul" (1988), Ch. 22, p. 225-226

    #DouglasAdams #TheLongDarkTeaTimeOfTheSoul #LDTTotS
    #especially #thor
    #Garak #ElimGarak #STDS9 #DS9 #TheWire

  11. "I can't even begin to understand what you're talking about," said Kate, "you say that I, we —"
    "You can begin to understand," said Thor, angrily, "which is why I have come to you. Do you know that most people hardly see me? Hardly notice me at all? It is not that we are hidden. We are here. We move among you. My people. Your gods. You gave birth to us. You made us what you would not dare to be yourselves. Yet you will not acknowledge us. If I walk along one of your streets in this... world you have made for yourselves without us, then barely an eye will once flicker in my direction."
    "Is this when you're wearing the helmet?"
    "Especially when I'm wearing the helmet!"


    Douglas Adams, "The Long Dark Tea-Time of the Soul" (1988), Ch. 22, p. 225-226

    #DouglasAdams #TheLongDarkTeaTimeOfTheSoul #LDTTotS
    #especially #thor
    #Garak #ElimGarak #STDS9 #DS9 #TheWire