#llm_security — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-19 · 10:52 UTC

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :

https://habr.com/ru/articles/1036854/

#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt

#gpt #ai_safety #rag #webhook #telegram_bot #red_teaming

Habr @[email protected] · 2026-05-19 · 10:52 UTC

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :

https://habr.com/ru/articles/1036854/

#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt

#gpt #ai_safety #rag #webhook #telegram_bot #red_teaming

Habr @[email protected] · 2026-05-19 · 10:52 UTC

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :

https://habr.com/ru/articles/1036854/

#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt

#gpt #ai_safety #rag #webhook #telegram_bot #red_teaming

Habr @[email protected] · 2026-05-19 · 10:52 UTC

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи с чем, мы вышли к ключевому вопросу: почему, если основная LLM защищена, кастомные боты на ее основе остаются уязвимыми? Базовые LLM проходят отдельное safety-training и RLHF-выравнивание. Но production-бот, построенный поверх модели, добавляет новый attack surface: system prompts, память диалога, RAG, tools, webhook-логику и внешние API. Именно этот orchestration layer часто становится слабым местом. Вот данные: Из анализа 14 904 кастомных GPT :

https://habr.com/ru/articles/1036854/

#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook #rag #ai_safety #gpt

#llm_security #prompt_injection #jailbreak #red_teaming #telegram_bot #webhook

Habr @[email protected] · 2026-05-05 · 11:42 UTC

Пентест 2026: как войти в профессию

В пентест часто пытаются войти через список инструментов: выучить Burp, погонять Nmap, пройти пару лабораторий и ждать первой боевой задачи. В 2026 году такой вход всё хуже работает: часть рутины уже забирают AI‑ассистенты и автоматические сканеры, а от специалиста ждут понимания атакующей логики, бизнес‑рисков и умения проверять гипотезы руками. Разбираемся, кому сегодня действительно стоит идти в пентест, какие направления растут быстрее всего и как учиться так, чтобы не конкурировать с автоматизацией за самые простые задачи.

https://habr.com/ru/companies/otus/articles/1029746/

#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security #cloud_security #Active_Directory #AI_security #LLM_security

#llm_security #ai_security #active_directory #cloud_security #mobile_security #webпентест

Habr @[email protected] · 2026-05-05 · 11:42 UTC

Пентест 2026: как войти в профессию

В пентест часто пытаются войти через список инструментов: выучить Burp, погонять Nmap, пройти пару лабораторий и ждать первой боевой задачи. В 2026 году такой вход всё хуже работает: часть рутины уже забирают AI‑ассистенты и автоматические сканеры, а от специалиста ждут понимания атакующей логики, бизнес‑рисков и умения проверять гипотезы руками. Разбираемся, кому сегодня действительно стоит идти в пентест, какие направления растут быстрее всего и как учиться так, чтобы не конкурировать с автоматизацией за самые простые задачи.

https://habr.com/ru/companies/otus/articles/1029746/

#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security #cloud_security #Active_Directory #AI_security #LLM_security

#llm_security #ai_security #active_directory #cloud_security #mobile_security #webпентест

Habr @[email protected] · 2026-05-05 · 11:42 UTC

Пентест 2026: как войти в профессию

В пентест часто пытаются войти через список инструментов: выучить Burp, погонять Nmap, пройти пару лабораторий и ждать первой боевой задачи. В 2026 году такой вход всё хуже работает: часть рутины уже забирают AI‑ассистенты и автоматические сканеры, а от специалиста ждут понимания атакующей логики, бизнес‑рисков и умения проверять гипотезы руками. Разбираемся, кому сегодня действительно стоит идти в пентест, какие направления растут быстрее всего и как учиться так, чтобы не конкурировать с автоматизацией за самые простые задачи.

https://habr.com/ru/companies/otus/articles/1029746/

#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security #cloud_security #Active_Directory #AI_security #LLM_security

#llm_security #ai_security #active_directory #cloud_security #mobile_security #webпентест

Habr @[email protected] · 2026-05-05 · 11:42 UTC

Пентест 2026: как войти в профессию

В пентест часто пытаются войти через список инструментов: выучить Burp, погонять Nmap, пройти пару лабораторий и ждать первой боевой задачи. В 2026 году такой вход всё хуже работает: часть рутины уже забирают AI‑ассистенты и автоматические сканеры, а от специалиста ждут понимания атакующей логики, бизнес‑рисков и умения проверять гипотезы руками. Разбираемся, кому сегодня действительно стоит идти в пентест, какие направления растут быстрее всего и как учиться так, чтобы не конкурировать с автоматизацией за самые простые задачи.

https://habr.com/ru/companies/otus/articles/1029746/

#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security #cloud_security #Active_Directory #AI_security #LLM_security

#пентест #кибербезопасность #информационная_безопасность #этичный_хакинг #webпентест #mobile_security

Habr @[email protected] · 2026-03-02 · 01:42 UTC

AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт

61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok.

https://habr.com/ru/articles/1005306/

#информационная_безопасность #AI #red_team #LLM_security #Sentinel #xAI #Grok #defensive_security

#defensive_security #grok #xai #sentinel #llm_security #red_team

Habr @[email protected] · 2026-03-02 · 01:42 UTC

AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт

61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok.

https://habr.com/ru/articles/1005306/

#информационная_безопасность #AI #red_team #LLM_security #Sentinel #xAI #Grok #defensive_security

#defensive_security #grok #xai #sentinel #llm_security #red_team

Habr @[email protected] · 2026-03-02 · 01:42 UTC

AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт

61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok.

https://habr.com/ru/articles/1005306/

#информационная_безопасность #AI #red_team #LLM_security #Sentinel #xAI #Grok #defensive_security

#defensive_security #grok #xai #sentinel #llm_security #red_team

Habr @[email protected] · 2026-03-02 · 01:42 UTC

AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт

61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok.

https://habr.com/ru/articles/1005306/

#информационная_безопасность #AI #red_team #LLM_security #Sentinel #xAI #Grok #defensive_security

#информационная_безопасность #ai #red_team #llm_security #sentinel #xai