#thinking_tokens — Public Fediverse posts on home.social

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать.

https://habr.com/ru/articles/1005304/

#информационная_безопасность #AI #LLM #jailbreak #prompt_injection #thinking_tokens #red_team #xAI #Grok