#атака_уклонения — Public Fediverse posts on home.social

Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM

Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов ( ChatGPT , Gemini , Bard , Notion AI , Compose AI , Poe , Phind ) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы с человеческим интеллектом. Отсюда мы получаем целый пласт заблуждений. Например, что модели нас «чувствуют», «понимают», ведь мы выкладываем для них столько информации о себе, начиная от стилистики нашего письма, что уже является неким цифровым отпечатком нашей личности , и заканчивая оценкой их собственной работы. На самом деле это миф. И трендом 2023–2024 годов стало обширное внимание публики к XAI : - как они (генеративные модели) устроены и как они принимают решения; - как проводятся атаки уклонения (склонение моделей к неверной выдаче); - как эти атаки (уклонения) связаны с другими атаками на LLM и какие они могут быть для эскалации деструктивного поведения системы; - с какой позиции верно интерпретировать выход генеративной модели; - разработка системы эшелонированной защиты моделей; - разработка системы внутреннего критика для модели. Для начала начнём с существующих атак и их анализа. Заинтересованных приглашаем под кат.

https://habr.com/ru/companies/sberbank/articles/849028/

#атака_уклонения #LLM #большая_языковая_модель