#отравление_данных — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-29 · 18:42 UTC

[Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать

RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG

https://habr.com/ru/companies/otus/articles/1029742/

#RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10

#owasp_llm_top_10 #эмбеддинги #векторные_базы_данных #отравление_данных #безопасность_llm #промптинъекции

Habr @[email protected] · 2026-04-29 · 18:42 UTC

[Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать

RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG

https://habr.com/ru/companies/otus/articles/1029742/

#RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10

#owasp_llm_top_10 #эмбеддинги #векторные_базы_данных #отравление_данных #безопасность_llm #промптинъекции

Habr @[email protected] · 2026-04-29 · 18:42 UTC

[Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать

RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG

https://habr.com/ru/companies/otus/articles/1029742/

#RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10

#owasp_llm_top_10 #эмбеддинги #векторные_базы_данных #отравление_данных #безопасность_llm #промптинъекции

Habr @[email protected] · 2026-04-29 · 18:42 UTC

[Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать

RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG

https://habr.com/ru/companies/otus/articles/1029742/

#RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10

#rag #llm #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных

Habr @[email protected] · 2026-04-03 · 19:12 UTC

Data Gravity и отравление выборки

Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал

https://habr.com/ru/companies/otus/articles/1012868/

#ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных

#смещение_данных #data_poisoning #отравление_данных #качество_данных #data_gravity #ai

Habr @[email protected] · 2026-04-03 · 19:12 UTC

Data Gravity и отравление выборки

Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал

https://habr.com/ru/companies/otus/articles/1012868/

#ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных

#drift_данных #валидация_данных #смещение_данных #data_poisoning #отравление_данных #качество_данных

Habr @[email protected] · 2026-04-03 · 19:12 UTC

Data Gravity и отравление выборки

Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал

https://habr.com/ru/companies/otus/articles/1012868/

#ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных

#drift_данных #валидация_данных #смещение_данных #data_poisoning #отравление_данных #качество_данных

Habr @[email protected] · 2026-04-03 · 19:12 UTC

Data Gravity и отравление выборки

Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал

https://habr.com/ru/companies/otus/articles/1012868/

#ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных

#ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning

Habr @[email protected] · 2026-02-25 · 13:52 UTC

[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

https://habr.com/ru/companies/otus/articles/1003482/

#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

#prompt_injection #rag #бэкдор #llm #безопасность_ии #data_poisoning

Habr @[email protected] · 2026-02-25 · 13:52 UTC

[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

https://habr.com/ru/companies/otus/articles/1003482/

#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

#prompt_injection #rag #бэкдор #llm #безопасность_ии #data_poisoning

Habr @[email protected] · 2026-02-25 · 13:52 UTC

[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

https://habr.com/ru/companies/otus/articles/1003482/

#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

#prompt_injection #rag #бэкдор #llm #безопасность_ии #data_poisoning

Habr @[email protected] · 2026-02-25 · 13:52 UTC

[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

https://habr.com/ru/companies/otus/articles/1003482/

#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

#отравление_данных #data_poisoning #безопасность_ии #llm #бэкдор #rag

Habr @[email protected] · 2025-10-31 · 09:22 UTC

Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам

Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.

https://habr.com/ru/articles/960994/

#фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети

#нейросети #отравление_данных #утечка_данных #галлюцинации #промптинъекции #фишинг

Habr @[email protected] · 2025-10-31 · 09:22 UTC

Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам

Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.

https://habr.com/ru/articles/960994/

#фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети

#нейросети #отравление_данных #утечка_данных #галлюцинации #промптинъекции #фишинг

Habr @[email protected] · 2025-10-31 · 09:22 UTC

Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам

Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.

https://habr.com/ru/articles/960994/

#фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети

#нейросети #отравление_данных #утечка_данных #галлюцинации #промптинъекции #фишинг

Habr @[email protected] · 2025-10-31 · 09:22 UTC

Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам

Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.

https://habr.com/ru/articles/960994/

#фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети

Habr @[email protected] · 2025-10-16 · 06:32 UTC

[Перевод] Небольшое количество примеров может отравить LLM любого размера

Команда AI for Devs подготовила перевод исследования в котором учёные показали: чтобы встроить «бэкдор» в большую языковую модель, вовсе не нужно контролировать огромную долю обучающих данных — достаточно около 250 вредоносных документов . Этот результат переворачивает представления о масштабируемости атак через отравление данных и ставит новые вопросы к безопасности ИИ.

https://habr.com/ru/articles/956948/

#LLM #безопасность #отравление_данных #бэкдор #Anthropic #ИИ #исследование #уязвимость #обучение #модели

#модели #обучение #уязвимость #исследование #ии #anthropic

Habr @[email protected] · 2025-06-23 · 12:52 UTC

Проверка на Data Poisoning в MLSecOps

В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.

https://habr.com/ru/articles/920936/

#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность

#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora

Habr @[email protected] · 2025-06-23 · 12:52 UTC

Проверка на Data Poisoning в MLSecOps

В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.

https://habr.com/ru/articles/920936/

#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность

#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora

Habr @[email protected] · 2025-06-23 · 12:52 UTC

Проверка на Data Poisoning в MLSecOps

В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.

https://habr.com/ru/articles/920936/

#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность

#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora

Habr @[email protected] · 2025-06-23 · 12:52 UTC

Проверка на Data Poisoning в MLSecOps

В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.

https://habr.com/ru/articles/920936/

#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность

#информационная_безопасность #машинное_обучение #очистка_данных #owasp_top10 #aurora #ai_security