#отравление_данных — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #отравление_данных, aggregated by home.social.
-
[Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать
RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG
https://habr.com/ru/companies/otus/articles/1029742/
#RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10
-
[Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать
RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG
https://habr.com/ru/companies/otus/articles/1029742/
#RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10
-
[Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать
RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG
https://habr.com/ru/companies/otus/articles/1029742/
#RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10
-
[Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать
RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG
https://habr.com/ru/companies/otus/articles/1029742/
#RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10
-
Data Gravity и отравление выборки
Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал
https://habr.com/ru/companies/otus/articles/1012868/
#ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных
-
Data Gravity и отравление выборки
Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал
https://habr.com/ru/companies/otus/articles/1012868/
#ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных
-
Data Gravity и отравление выборки
Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал
https://habr.com/ru/companies/otus/articles/1012868/
#ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных
-
Data Gravity и отравление выборки
Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал
https://habr.com/ru/companies/otus/articles/1012868/
#ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных
-
[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах
В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски
https://habr.com/ru/companies/otus/articles/1003482/
#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection
-
[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах
В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски
https://habr.com/ru/companies/otus/articles/1003482/
#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection
-
[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах
В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски
https://habr.com/ru/companies/otus/articles/1003482/
#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection
-
[Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах
В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски
https://habr.com/ru/companies/otus/articles/1003482/
#отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection
-
Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам
Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.
https://habr.com/ru/articles/960994/
#фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети
-
Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам
Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.
https://habr.com/ru/articles/960994/
#фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети
-
Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам
Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.
https://habr.com/ru/articles/960994/
#фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети
-
Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам
Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.
https://habr.com/ru/articles/960994/
#фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети
-
[Перевод] Небольшое количество примеров может отравить LLM любого размера
Команда AI for Devs подготовила перевод исследования в котором учёные показали: чтобы встроить «бэкдор» в большую языковую модель, вовсе не нужно контролировать огромную долю обучающих данных — достаточно около 250 вредоносных документов . Этот результат переворачивает представления о масштабируемости атак через отравление данных и ставит новые вопросы к безопасности ИИ.
https://habr.com/ru/articles/956948/
#LLM #безопасность #отравление_данных #бэкдор #Anthropic #ИИ #исследование #уязвимость #обучение #модели
-
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.
https://habr.com/ru/articles/920936/
#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность
-
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.
https://habr.com/ru/articles/920936/
#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность
-
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.
https://habr.com/ru/articles/920936/
#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность
-
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.
https://habr.com/ru/articles/920936/
#mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность