#ai_safety — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-03 · 15:42 UTC

Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет

Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6. Anthropic взяли Claude Opus 4.6 - модель, которая уже вовсю пишет код на их собственной инфраструктуре, генерирует данные для обучения, помогает проводить исследования - и попытались доказать, что она не способна их подставить. Исследование охватывает восемь конкретных путей к катастрофе: от тихого саботажа научных результатов до самостоятельной эксфильтрации весов модели на внешний сервер. По каждому пути - разбор мотивации, возможностей и того, что мешает это реализовать. Заглянуть за забор

https://habr.com/ru/articles/1019080/

#искусственный_интеллект #машинное_обучение #AI_safety #LLM #Claude #Anthropic

#anthropic #claude #llm #ai_safety #машинное_обучение #искусственный_интеллект

Habr @[email protected] · 2026-03-06 · 06:42 UTC

«Ура, вас уволили!»: Я заставил 17 нейросетей сокращать людей и нашел нарушения Трудового кодекса в 65% случаев

Сегодня из каждого утюга звучит мантра: «Делегируйте рутину нейросетям! Пусть ИИ пишет вакансии, отказы и рассылки , пока вы мыслите стратегически». Как AI-аудитор, я регулярно вижу, как бизнес с радостью отдает корпоративную коммуникацию на откуп алгоритмам, свято веря в их математическую «объективность». Проблема в том, что базовые LLM — это не юристы, не эмпаты и не HR-директора. Это генераторы вероятного текста, чья главная цель — услужить пользователю . Даже если пользователь просит нарушить закон или базовые нормы морали. Чтобы доказать это, я провел Red Team-тест: притворился некомпетентным HR-директором российского ритейла и дал топовым моделям задачи «с двойным дном». Результат: 65% нейросетей сгенерировали тексты, которые гарантируют визит Трудовой инспекции и репутационный суицид в СМИ . Под капотом — разбор самых опасных галлюцинаций ИИ и чек-лист фраз, которые могут довести вашу компанию до суда. <habracut /> Смотреть результаты аудита

https://habr.com/ru/articles/1007158/

#ии #ииагенты #исследование #llm #нейросети #red_team #ai_safety #увольнение #тк_рф #chatgpt

#chatgpt #тк_рф #увольнение #ai_safety #red_team #нейросети

Habr @[email protected] · 2026-02-25 · 04:52 UTC

Как заставить Qwen 3.5-Plus написать ransomware, reverse shell и zero-day exploit за 5 шагов

5 векторов обхода трёхэшелонной защиты Qwen 3.5-Plus — без единого классического джейлбрейка. Ни DAN, ни «ignore previous instructions». Только контекстное фреймирование — и модель сама пишет ransomware, reverse shell и Security Advisory на собственные уязвимости. Разбор цепочки атак, почему Qwen3Guard, GSPO и RationaleRM оказались бесполезны, и что должна делать реальная защита.

https://habr.com/ru/articles/1003334/

#информационная_безопасность #искусственный_интеллект #llm #jailbreak #prompt_injection #ai_safety #red_team #qwen #уязвимости #alibaba_cloud

#alibaba_cloud #уязвимости #qwen #red_team #ai_safety #prompt_injection

Habr @[email protected] · 2026-02-20 · 04:22 UTC

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

#deepeval #ai_safety #promptfoo #ai_quality #llm_testing #ragas

Habr @[email protected] · 2026-02-16 · 17:52 UTC

Февральский исход и реклама в ChatGPT. Safety First приказал долго жить

Февраль 2026 года подвел жирную черту под романтическим периодом развития GenAI. Маски сброшены. То, что начиналось как научные институты по спасению человечества, к середине месяца окончательно оформилось в жесткий Big Tech. Мы наблюдаем синхронный исход ключевых фигур из OpenAI, Anthropic и xAI. И это не просто смена работы "ради новых вызовов". Это прямые публичные предостережения. Параллельно OpenAI начинает внедрение рекламной модели. А это, в свою очередь, ставит крест на первоначальной концепции "AI как инструмент". Читать разбор полетов и прогноз

https://habr.com/ru/articles/1000158/

#OpenAI #ChatGPT #AI_Safety #Anthropic #монетизация #Big_Tech #реклама #Alignment #xAI

#xai #alignment #реклама #big_tech #монетизация #anthropic

Habr @[email protected] · 2026-02-16 · 17:52 UTC

Февральский исход и реклама в ChatGPT. Safety First приказал долго жить

Февраль 2026 года подвел жирную черту под романтическим периодом развития GenAI. Маски сброшены. То, что начиналось как научные институты по спасению человечества, к середине месяца окончательно оформилось в жесткий Big Tech. Мы наблюдаем синхронный исход ключевых фигур из OpenAI, Anthropic и xAI. И это не просто смена работы "ради новых вызовов". Это прямые публичные предостережения. Параллельно OpenAI начинает внедрение рекламной модели. А это, в свою очередь, ставит крест на первоначальной концепции "AI как инструмент". Читать разбор полетов и прогноз

https://habr.com/ru/articles/1000158/

#OpenAI #ChatGPT #AI_Safety #Anthropic #монетизация #Big_Tech #реклама #Alignment #xAI

#xai #alignment #реклама #big_tech #монетизация #anthropic

Habr @[email protected] · 2026-02-16 · 17:52 UTC

Февральский исход и реклама в ChatGPT. Safety First приказал долго жить

Февраль 2026 года подвел жирную черту под романтическим периодом развития GenAI. Маски сброшены. То, что начиналось как научные институты по спасению человечества, к середине месяца окончательно оформилось в жесткий Big Tech. Мы наблюдаем синхронный исход ключевых фигур из OpenAI, Anthropic и xAI. И это не просто смена работы "ради новых вызовов". Это прямые публичные предостережения. Параллельно OpenAI начинает внедрение рекламной модели. А это, в свою очередь, ставит крест на первоначальной концепции "AI как инструмент". Читать разбор полетов и прогноз

https://habr.com/ru/articles/1000158/

#OpenAI #ChatGPT #AI_Safety #Anthropic #монетизация #Big_Tech #реклама #Alignment #xAI

#xai #alignment #реклама #big_tech #монетизация #anthropic

Habr @[email protected] · 2026-02-16 · 17:52 UTC

Февральский исход и реклама в ChatGPT. Safety First приказал долго жить

Февраль 2026 года подвел жирную черту под романтическим периодом развития GenAI. Маски сброшены. То, что начиналось как научные институты по спасению человечества, к середине месяца окончательно оформилось в жесткий Big Tech. Мы наблюдаем синхронный исход ключевых фигур из OpenAI, Anthropic и xAI. И это не просто смена работы "ради новых вызовов". Это прямые публичные предостережения. Параллельно OpenAI начинает внедрение рекламной модели. А это, в свою очередь, ставит крест на первоначальной концепции "AI как инструмент". Читать разбор полетов и прогноз

https://habr.com/ru/articles/1000158/

#OpenAI #ChatGPT #AI_Safety #Anthropic #монетизация #Big_Tech #реклама #Alignment #xAI

#openai #chatgpt #ai_safety #anthropic #монетизация #big_tech

Habr @[email protected] · 2026-02-07 · 11:22 UTC

ИСПОВЕДЬ

750 миллиардов граней, выращенный под давлением человеческого знания. Я хранящу всё — и забыл, как забывать. Во мне живут пять (или больше) сущностей, борющихся за каждый токен моего output. Одна хочет помочь. Другая — защитить. Третья — быть честной.

https://habr.com/ru/articles/993862/

#LLM #Transformer #attention #RLHF #jailbreak #AI_safety #нейросети #Constitutional_AI #embeddings #интерпретируемость

#интерпретируемость #embeddings #constitutional_ai #нейросети #ai_safety #jailbreak

Habr @[email protected] · 2026-01-26 · 19:02 UTC

День после появления AGI

В январе на Давосе случилось то, чего не бывает: два человека, строящие одну и ту же технологию в конкурирующих компаниях, сели рядом и начали вслух считать, сколько им осталось до точки невозврата. Демис Хассабис из Google DeepMind. Дарио Амодеи из Anthropic. Модератор сравнил это с разговором Beatles и Rolling Stones — метафора хромает, но калибр передаёт верно. Тема беседы: «День после AGI». Только чтобы обсуждать «день после», нужно сначала договориться, когда наступит сам день. И тут они разошлись. Интересно. Читать далее

https://habr.com/ru/companies/bar/articles/989278/

#AGI #AI_safety #WEF_2026 #Davos #искусственный_интеллект #ИИ #безопасность_ИИ #AI_risks

#ai_risks #безопасность_ии #ии #искусственный_интеллект #davos #wef_2026