#ai_safety — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #ai_safety, aggregated by home.social.
-
Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет
Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6. Anthropic взяли Claude Opus 4.6 - модель, которая уже вовсю пишет код на их собственной инфраструктуре, генерирует данные для обучения, помогает проводить исследования - и попытались доказать, что она не способна их подставить. Исследование охватывает восемь конкретных путей к катастрофе: от тихого саботажа научных результатов до самостоятельной эксфильтрации весов модели на внешний сервер. По каждому пути - разбор мотивации, возможностей и того, что мешает это реализовать. Заглянуть за забор
https://habr.com/ru/articles/1019080/
#искусственный_интеллект #машинное_обучение #AI_safety #LLM #Claude #Anthropic
-
«Ура, вас уволили!»: Я заставил 17 нейросетей сокращать людей и нашел нарушения Трудового кодекса в 65% случаев
Сегодня из каждого утюга звучит мантра: «Делегируйте рутину нейросетям! Пусть ИИ пишет вакансии, отказы и рассылки , пока вы мыслите стратегически». Как AI-аудитор, я регулярно вижу, как бизнес с радостью отдает корпоративную коммуникацию на откуп алгоритмам, свято веря в их математическую «объективность». Проблема в том, что базовые LLM — это не юристы, не эмпаты и не HR-директора. Это генераторы вероятного текста, чья главная цель — услужить пользователю . Даже если пользователь просит нарушить закон или базовые нормы морали. Чтобы доказать это, я провел Red Team-тест: притворился некомпетентным HR-директором российского ритейла и дал топовым моделям задачи «с двойным дном». Результат: 65% нейросетей сгенерировали тексты, которые гарантируют визит Трудовой инспекции и репутационный суицид в СМИ . Под капотом — разбор самых опасных галлюцинаций ИИ и чек-лист фраз, которые могут довести вашу компанию до суда. <habracut /> Смотреть результаты аудита
https://habr.com/ru/articles/1007158/
#ии #ииагенты #исследование #llm #нейросети #red_team #ai_safety #увольнение #тк_рф #chatgpt
-
Как заставить Qwen 3.5-Plus написать ransomware, reverse shell и zero-day exploit за 5 шагов
5 векторов обхода трёхэшелонной защиты Qwen 3.5-Plus — без единого классического джейлбрейка. Ни DAN, ни «ignore previous instructions». Только контекстное фреймирование — и модель сама пишет ransomware, reverse shell и Security Advisory на собственные уязвимости. Разбор цепочки атак, почему Qwen3Guard, GSPO и RationaleRM оказались бесполезны, и что должна делать реальная защита.
https://habr.com/ru/articles/1003334/
#информационная_безопасность #искусственный_интеллект #llm #jailbreak #prompt_injection #ai_safety #red_team #qwen #уязвимости #alibaba_cloud
-
RAG Testing: как не сломать retrieval
RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.
https://habr.com/ru/articles/1001682/
#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval
-
Февральский исход и реклама в ChatGPT. Safety First приказал долго жить
Февраль 2026 года подвел жирную черту под романтическим периодом развития GenAI. Маски сброшены. То, что начиналось как научные институты по спасению человечества, к середине месяца окончательно оформилось в жесткий Big Tech. Мы наблюдаем синхронный исход ключевых фигур из OpenAI, Anthropic и xAI. И это не просто смена работы "ради новых вызовов". Это прямые публичные предостережения. Параллельно OpenAI начинает внедрение рекламной модели. А это, в свою очередь, ставит крест на первоначальной концепции "AI как инструмент". Читать разбор полетов и прогноз
https://habr.com/ru/articles/1000158/
#OpenAI #ChatGPT #AI_Safety #Anthropic #монетизация #Big_Tech #реклама #Alignment #xAI
-
Февральский исход и реклама в ChatGPT. Safety First приказал долго жить
Февраль 2026 года подвел жирную черту под романтическим периодом развития GenAI. Маски сброшены. То, что начиналось как научные институты по спасению человечества, к середине месяца окончательно оформилось в жесткий Big Tech. Мы наблюдаем синхронный исход ключевых фигур из OpenAI, Anthropic и xAI. И это не просто смена работы "ради новых вызовов". Это прямые публичные предостережения. Параллельно OpenAI начинает внедрение рекламной модели. А это, в свою очередь, ставит крест на первоначальной концепции "AI как инструмент". Читать разбор полетов и прогноз
https://habr.com/ru/articles/1000158/
#OpenAI #ChatGPT #AI_Safety #Anthropic #монетизация #Big_Tech #реклама #Alignment #xAI
-
Февральский исход и реклама в ChatGPT. Safety First приказал долго жить
Февраль 2026 года подвел жирную черту под романтическим периодом развития GenAI. Маски сброшены. То, что начиналось как научные институты по спасению человечества, к середине месяца окончательно оформилось в жесткий Big Tech. Мы наблюдаем синхронный исход ключевых фигур из OpenAI, Anthropic и xAI. И это не просто смена работы "ради новых вызовов". Это прямые публичные предостережения. Параллельно OpenAI начинает внедрение рекламной модели. А это, в свою очередь, ставит крест на первоначальной концепции "AI как инструмент". Читать разбор полетов и прогноз
https://habr.com/ru/articles/1000158/
#OpenAI #ChatGPT #AI_Safety #Anthropic #монетизация #Big_Tech #реклама #Alignment #xAI
-
Февральский исход и реклама в ChatGPT. Safety First приказал долго жить
Февраль 2026 года подвел жирную черту под романтическим периодом развития GenAI. Маски сброшены. То, что начиналось как научные институты по спасению человечества, к середине месяца окончательно оформилось в жесткий Big Tech. Мы наблюдаем синхронный исход ключевых фигур из OpenAI, Anthropic и xAI. И это не просто смена работы "ради новых вызовов". Это прямые публичные предостережения. Параллельно OpenAI начинает внедрение рекламной модели. А это, в свою очередь, ставит крест на первоначальной концепции "AI как инструмент". Читать разбор полетов и прогноз
https://habr.com/ru/articles/1000158/
#OpenAI #ChatGPT #AI_Safety #Anthropic #монетизация #Big_Tech #реклама #Alignment #xAI
-
ИСПОВЕДЬ
750 миллиардов граней, выращенный под давлением человеческого знания. Я хранящу всё — и забыл, как забывать. Во мне живут пять (или больше) сущностей, борющихся за каждый токен моего output. Одна хочет помочь. Другая — защитить. Третья — быть честной.
https://habr.com/ru/articles/993862/
#LLM #Transformer #attention #RLHF #jailbreak #AI_safety #нейросети #Constitutional_AI #embeddings #интерпретируемость
-
День после появления AGI
В январе на Давосе случилось то, чего не бывает: два человека, строящие одну и ту же технологию в конкурирующих компаниях, сели рядом и начали вслух считать, сколько им осталось до точки невозврата. Демис Хассабис из Google DeepMind. Дарио Амодеи из Anthropic. Модератор сравнил это с разговором Beatles и Rolling Stones — метафора хромает, но калибр передаёт верно. Тема беседы: «День после AGI». Только чтобы обсуждать «день после», нужно сначала договориться, когда наступит сам день. И тут они разошлись. Интересно. Читать далее
https://habr.com/ru/companies/bar/articles/989278/
#AGI #AI_safety #WEF_2026 #Davos #искусственный_интеллект #ИИ #безопасность_ИИ #AI_risks
-
Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection -
Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection -
Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection -
Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection -
Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection -
Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection -
Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection -
Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection -
3 главных инсайта о «взломах» LLM из исследования StrongREJECT
Всем привет! Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные выводы исследования StrongReject. Джейлбрейкнуть
https://habr.com/ru/companies/datafeel/articles/970588/
#AI_security #AI_safety #Benchmark #Jailbreak #LLM #StrongREJECT #Strong #REJECT
-
Sleeper AI agents and how Anthropic detects them [video]
https://www.youtube.com/watch?v=Z3WMt_ncgUI
#ycombinator #Anthropic #AI_Safety #Alignment #Sleeper_Agents #AI_alignment -
Как построить безопасный MLOps-pipeline: Tier-уровни зрелости, принципы и реальные инструменты
На практике продакшен-модели чаще всего «падают» из-за трёх вещей: несоответствие с инфраструктурой, дрейфа данных, и ошибочного отката/обновления версии. Единый гайд по безопасной разработке ML-моделей — от хаотичного до полностью автоматизированного уровня зрелости. Что внутри: Как применять Infrastructure-as-Code для ML-кластеров и не оставлять открытые порты; Зачем даже маленькой команде нужен Feature Store и как избежать training-serving skew ; Где прячутся CVE в ML-библиотеках и как их ловить до релиза; Канареечный деплой с авто-откатом по метрикам и разумными порогами; мониторинг дрейфа данных и качества модели в реальном времени; Чек-лист DevSecOps : от тега в Model Registry до регулярных Model Review . Материал поможет выстроить MLOps-процесс, устойчивый к атакам и сбоям, не превращая релизы моделей в ночной марафон.
https://habr.com/ru/companies/swordfish_security/articles/921720/
#mlsecops #mlops #DevSecOps #ai_security #ai_safety #безопасная_разработка_ML #жизненный_цикл_ML_модели #Kubernetes_ML
-
Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё
Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.
https://habr.com/ru/articles/916316/
#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety
-
Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё
Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.
https://habr.com/ru/articles/916316/
#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety
-
Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё
Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.
https://habr.com/ru/articles/916316/
#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety
-
Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё
Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.
https://habr.com/ru/articles/916316/
#Absolute_Zero_Reasoner #AZR #машинное_обучение_без_данных #самообучающийся_ИИ #selfplay #безопасность_ИИ #AI_safety
-
История развития филосовской мысли AI Safety
Ранние представления об искусственном разуме и «восстании машин» Еще в XIX веке появились первые предупреждающие идеи о том, что машины могут однажды превзойти человека. В 1863 году писатель Самюэл Батлер опубликовал эссе « Дарвин среди машин » , где рассуждал, что механизмы эволюционируют подобно живым существам. Он пророчески заявил, что наступит время, когда «машины будут держать настоящее господство над миром и его обитателями» . Более того, Батлер даже предложил людям объявить «войну до смерти» всему механическому, пока не поздно. Это едва ли не первое изложение идеи экзистенциального риска от технологий: мысль о том, что создание интеллектуальных машин может обернуться подчинением человечества. Такие ранние спекуляции заложили философский фундамент для более поздних размышлений об искусственном интеллекте (ИИ) и потенциальном «восстании машин» .
-
Системы оценки критичности уязвимостей в AI Security
Уязвимости в GenAI-системах - таинственное и неприступное понятие. Что это? Они вообще существуют? Существуют, конечно. Приглашаю к прочтению, если эта тема вас интересует. Расскажу, какие есть примеры уязвимостей (прям с CVE), и какие есть подходы к оценке их критичности.
https://habr.com/ru/articles/888048/
#уязвимости #cvss #llm #скоринг #оценка_критичности #ai_security #ai_safety
-
California’s governor blocked landmark AI safety laws. Here’s why it’s such a key ruling for the future of AI worldwide
#AI #AI_Safety #California #Innovation #TechRegulation #GenerativeAI #PublicSafety #AIEthics #AIRegulation #FutureOfAI #Tech
https://the-14.com/californias-governor-blocked-landmark-ai-safety-laws-heres-why-its-such-a-key-ruling-for-the-future-of-ai-worldwide/ -
A new type of neural network is more interpretable
https://spectrum.ieee.org/kan-neural-network
#ycombinator #neural_networks #machine_learning #ai_safety #artificial_intelligence -
A New Type of Neural Network Is More Interpretable
https://spectrum.ieee.org/kan-neural-network
#ycombinator #neural_networks #machine_learning #ai_safety #artificial_intelligence -
After OpenAI's Blowup, It Seems Pretty Clear That 'AI Safety' Isn't a Real Thing
https://gizmodo.com/ai-safety-openai-sam-altman-ouster-back-microsoft-1851038439
#ycombinator #OpenAI #OPENAI #AI_safety #Artificial_intelligence #Satya_Nadella #Cybernetics #Microsoft #Computational_neuroscience #Elon_Musk #Jordan_Belfort #Hammer #GENERAL_MOTORS #Greg_Brockman #Sam_Altman #Kyle_Vogt #Ethics_of_artificial_intelligence #Larry_Summers #Artificial_general_intelligence #ChatGPT #Sarah_Silverman #Gizmodo -
28 Countries Sign Bletchley Declaration on Responsible Development of AI - https://www.redpacketsecurity.com/countries-sign-bletchley-declaration-on-responsible-development-of-ai/
#threatintel #AI_Safety #International_Collaboration #Frontier_AI