home.social

#отравление_данных — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #отравление_данных, aggregated by home.social.

  1. [Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать

    RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG

    habr.com/ru/companies/otus/art

    #RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10

  2. [Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать

    RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG

    habr.com/ru/companies/otus/art

    #RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10

  3. [Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать

    RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG

    habr.com/ru/companies/otus/art

    #RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10

  4. [Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать

    RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем, как несколько отравленных документов могут повлиять на ответы системы, почему эмбеддинги нельзя считать безопасной абстракцией и какие уровни защиты нужны, если RAG используется не в демо, а в реальном продакшене. К рискам RAG

    habr.com/ru/companies/otus/art

    #RAG #LLM #промптинъекции #безопасность_llm #отравление_данных #векторные_базы_данных #эмбеддинги #OWASP_LLM_Top_10

  5. Data Gravity и отравление выборки

    Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал

    habr.com/ru/companies/otus/art

    #ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных

  6. Data Gravity и отравление выборки

    Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал

    habr.com/ru/companies/otus/art

    #ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных

  7. Data Gravity и отравление выборки

    Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал

    habr.com/ru/companies/otus/art

    #ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных

  8. Data Gravity и отравление выборки

    Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал

    habr.com/ru/companies/otus/art

    #ml #ai #data_gravity #качество_данных #отравление_данных #data_poisoning #смещение_данных #валидация_данных #drift_данных

  9. [Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

    В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

    habr.com/ru/companies/otus/art

    #отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

  10. [Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

    В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

    habr.com/ru/companies/otus/art

    #отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

  11. [Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

    В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

    habr.com/ru/companies/otus/art

    #отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

  12. [Перевод] Data poisoning: бэкдоры в данных, RAG и инструментах

    В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров и бэкдоров. В статье разберём реальные кейсы, исследования и выводы для тех, кто строит или защищает решения на базе GenAI. Узнать про риски

    habr.com/ru/companies/otus/art

    #отравление_данных #data_poisoning #безопасность_ИИ #LLM #бэкдор #RAG #prompt_injection

  13. Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам

    Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.

    habr.com/ru/articles/960994/

    #фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети

  14. Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам

    Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.

    habr.com/ru/articles/960994/

    #фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети

  15. Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам

    Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.

    habr.com/ru/articles/960994/

    #фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети

  16. Как нейросети крадут данные, сводят пользователей с ума и помогают мошенникам

    Глупо отрицать, что нейросети ускорили работу профессионалов. Дизайнеры рисуют картинки за 5-10 минут вместо 2-х часов, редакторы за день собирают воронку постов, а благодаря вайбкодингу непрофессиональные разработчики кое-как, но могут собрать прототип будущего продукта. Только, как это часто бывает, в погоне за хайповыми инструментами люди забывают о безопасности. И сегодня я хочу рассказать о рисках, которые нас ждут, если мы будем использовать нейросети без должной осторожности.

    habr.com/ru/articles/960994/

    #фишинг #промптинъекции #галлюцинации #утечка_данных #отравление_данных #нейросети

  17. [Перевод] Небольшое количество примеров может отравить LLM любого размера

    Команда AI for Devs подготовила перевод исследования в котором учёные показали: чтобы встроить «бэкдор» в большую языковую модель, вовсе не нужно контролировать огромную долю обучающих данных — достаточно около 250 вредоносных документов . Этот результат переворачивает представления о масштабируемости атак через отравление данных и ставит новые вопросы к безопасности ИИ.

    habr.com/ru/articles/956948/

    #LLM #безопасность #отравление_данных #бэкдор #Anthropic #ИИ #исследование #уязвимость #обучение #модели

  18. Проверка на Data Poisoning в MLSecOps

    В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.

    habr.com/ru/articles/920936/

    #mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность

  19. Проверка на Data Poisoning в MLSecOps

    В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.

    habr.com/ru/articles/920936/

    #mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность

  20. Проверка на Data Poisoning в MLSecOps

    В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.

    habr.com/ru/articles/920936/

    #mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность

  21. Проверка на Data Poisoning в MLSecOps

    В первой обзорной статье про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии. Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз / Хабр Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»? Подчеркну – не обязательно все советы из статьи реализовывать, возможно какие-то меры будут избыточны, так как в вашей практике уже реализованы альтернативные и при этом не менее эффективные стандарты защиты данных от отравления. Итак, желающих узнать ответ на этот вопрос приглашаю под кат.

    habr.com/ru/articles/920936/

    #mlsecops #data_poisoning #отравление_данных #безопасный_ии #ai_security #aurora #owasp_top10 #очистка_данных #машинное_обучение #информационная_безопасность