#llm_security — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #llm_security, aggregated by home.social.
-
Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?
В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :
https://habr.com/ru/articles/1036854/
#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt
-
Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?
В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :
https://habr.com/ru/articles/1036854/
#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt
-
Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?
В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :
https://habr.com/ru/articles/1036854/
#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt
-
Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?
В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :
https://habr.com/ru/articles/1036854/
#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt
-
Пентест 2026: как войти в профессию
В пентест часто пытаются войти через список инструментов: выучить Burp, погонять Nmap, пройти пару лабораторий и ждать первой боевой задачи. В 2026 году такой вход всё хуже работает: часть рутины уже забирают AI‑ассистенты и автоматические сканеры, а от специалиста ждут понимания атакующей логики, бизнес‑рисков и умения проверять гипотезы руками. Разбираемся, кому сегодня действительно стоит идти в пентест, какие направления растут быстрее всего и как учиться так, чтобы не конкурировать с автоматизацией за самые простые задачи.
https://habr.com/ru/companies/otus/articles/1029746/
#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security #cloud_security #Active_Directory #AI_security #LLM_security
-
Пентест 2026: как войти в профессию
В пентест часто пытаются войти через список инструментов: выучить Burp, погонять Nmap, пройти пару лабораторий и ждать первой боевой задачи. В 2026 году такой вход всё хуже работает: часть рутины уже забирают AI‑ассистенты и автоматические сканеры, а от специалиста ждут понимания атакующей логики, бизнес‑рисков и умения проверять гипотезы руками. Разбираемся, кому сегодня действительно стоит идти в пентест, какие направления растут быстрее всего и как учиться так, чтобы не конкурировать с автоматизацией за самые простые задачи.
https://habr.com/ru/companies/otus/articles/1029746/
#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security #cloud_security #Active_Directory #AI_security #LLM_security
-
Пентест 2026: как войти в профессию
В пентест часто пытаются войти через список инструментов: выучить Burp, погонять Nmap, пройти пару лабораторий и ждать первой боевой задачи. В 2026 году такой вход всё хуже работает: часть рутины уже забирают AI‑ассистенты и автоматические сканеры, а от специалиста ждут понимания атакующей логики, бизнес‑рисков и умения проверять гипотезы руками. Разбираемся, кому сегодня действительно стоит идти в пентест, какие направления растут быстрее всего и как учиться так, чтобы не конкурировать с автоматизацией за самые простые задачи.
https://habr.com/ru/companies/otus/articles/1029746/
#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security #cloud_security #Active_Directory #AI_security #LLM_security
-
Пентест 2026: как войти в профессию
В пентест часто пытаются войти через список инструментов: выучить Burp, погонять Nmap, пройти пару лабораторий и ждать первой боевой задачи. В 2026 году такой вход всё хуже работает: часть рутины уже забирают AI‑ассистенты и автоматические сканеры, а от специалиста ждут понимания атакующей логики, бизнес‑рисков и умения проверять гипотезы руками. Разбираемся, кому сегодня действительно стоит идти в пентест, какие направления растут быстрее всего и как учиться так, чтобы не конкурировать с автоматизацией за самые простые задачи.
https://habr.com/ru/companies/otus/articles/1029746/
#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security #cloud_security #Active_Directory #AI_security #LLM_security
-
AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт
61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok.
https://habr.com/ru/articles/1005306/
#информационная_безопасность #AI #red_team #LLM_security #Sentinel #xAI #Grok #defensive_security
-
AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт
61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok.
https://habr.com/ru/articles/1005306/
#информационная_безопасность #AI #red_team #LLM_security #Sentinel #xAI #Grok #defensive_security
-
AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт
61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok.
https://habr.com/ru/articles/1005306/
#информационная_безопасность #AI #red_team #LLM_security #Sentinel #xAI #Grok #defensive_security
-
AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт
61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok.
https://habr.com/ru/articles/1005306/
#информационная_безопасность #AI #red_team #LLM_security #Sentinel #xAI #Grok #defensive_security