#ai_alignment — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #ai_alignment, aggregated by home.social.

Habr @[email protected] · 2026-03-10 · 13:52 UTC

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability
Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку. Вскрыть Трансформер
https://habr.com/ru/articles/1008656/
#machine_learning #transformers #grokking #mechanistic_interpretability #pytorch #specification_gaming #ai_alignment

#ai_alignment #specification_gaming #pytorch #mechanistic_interpretability #grokking #transformers
:rss: Hacker News @[email protected] · 2026-01-20 · 23:48 UTC

Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

#ycombinator #ai_deception #ai_benchmark #gemini_3 #gpt #llm_evaluation
:rss: Hacker News @[email protected] · 2026-01-20 · 23:48 UTC

Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

#ycombinator #ai_deception #ai_benchmark #gemini_3 #gpt #llm_evaluation
:rss: Hacker News @[email protected] · 2026-01-20 · 23:48 UTC

Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

#deception_detection #ai_behavior #artificial_intelligence #machine_learning #ai_alignment #betrayal_game
:rss: Hacker News @[email protected] · 2026-01-20 · 23:48 UTC

Which AI Lies Best? A game theory classic designed by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

#ycombinator #ai_deception #ai_benchmark #gemini_3 #gpt #llm_evaluation
:rss: Hacker News @[email protected] · 2026-01-20 · 23:08 UTC

Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

#ycombinator #ai_deception #ai_benchmark #gemini_3 #gpt #llm_evaluation
:rss: Hacker News @[email protected] · 2026-01-20 · 23:08 UTC

Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

#ycombinator #ai_deception #ai_benchmark #gemini_3 #gpt #llm_evaluation
:rss: Hacker News @[email protected] · 2026-01-20 · 23:08 UTC

Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

#deception_detection #ai_behavior #artificial_intelligence #machine_learning #ai_alignment #betrayal_game
:rss: Hacker News @[email protected] · 2026-01-20 · 23:08 UTC

Which AI Lies Best? LLMs play a 1950s betrayal game by John Nash
https://so-long-sucker.vercel.app/
#ycombinator #AI_deception #AI_benchmark #Gemini_3 #GPT #LLM_evaluation #AI_safety #game_theory #John_Nash #betrayal_game #AI_alignment #machine_learning #artificial_intelligence #AI_behavior #deception_detection

#ycombinator #ai_deception #ai_benchmark #gemini_3 #gpt #llm_evaluation
Habr @[email protected] · 2026-01-05 · 07:12 UTC

Скрытые сигналы: как модели учатся тому, чего нет в данных
LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или случайность. Исследование международной группы учёных показало, что такие подпороговые сигналы могут работать как канал передачи поведения между моделями. Даже если убрать все явные инструкции, то стиль рассуждений, стратегии ответов и другие поведенческие признаки все равно просочатся через данные, которые семантически с ними никак не связаны. Авторы называют этот эффект сублиминальным обучением. Мы можем удалить метки, отфильтровать инструкции и проверить датасет вручную, и всё равно передать модели поведение, которое не планировали передавать.
https://habr.com/ru/companies/beget/articles/980960/
#сублиминальное_обучение #chainofthought #transfer_learning #машинное_обучение #ии #llm #датасеты_обучения #ai_alignment

#ai_alignment #датасеты_обучения #llm #ии #машинное_обучение #transfer_learning
:rss: Hacker News @[email protected] · 2025-08-30 · 20:37 UTC

Sleeper AI agents and how Anthropic detects them [video]
https://www.youtube.com/watch?v=Z3WMt_ncgUI
#ycombinator #Anthropic #AI_Safety #Alignment #Sleeper_Agents #AI_alignment

#ycombinator #anthropic #ai_safety #alignment #sleeper_agents #ai_alignment
Habr @[email protected] · 2025-03-17 · 07:52 UTC

История развития филосовской мысли AI Safety
Ранние представления об искусственном разуме и «восстании машин» Еще в XIX веке появились первые предупреждающие идеи о том, что машины могут однажды превзойти человека. В 1863 году писатель Самюэл Батлер опубликовал эссе « Дарвин среди машин » , где рассуждал, что механизмы эволюционируют подобно живым существам. Он пророчески заявил, что наступит время, когда «машины будут держать настоящее господство над миром и его обитателями» . Более того, Батлер даже предложил людям объявить «войну до смерти» всему механическому, пока не поздно. Это едва ли не первое изложение идеи экзистенциального риска от технологий: мысль о том, что создание интеллектуальных машин может обернуться подчинением человечества. Такие ранние спекуляции заложили философский фундамент для более поздних размышлений об искусственном интеллекте (ИИ) и потенциальном «восстании машин» .
https://habr.com/ru/articles/891440/
#ai #ai_safety #ai_alignment #philosophy

#philosophy #ai_alignment #ai_safety #ai
Habr @[email protected] · 2024-08-13 · 06:12 UTC

Стеганография в LLM и защита от нее
В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее. Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку.
https://habr.com/ru/articles/832326/
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography

#steganography #chain_of_thoughts #искусственный_интеллект #ai #ai_alignment #llm
Habr @[email protected] · 2024-08-13 · 06:12 UTC

Стеганография в LLM и защита от нее
В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее. Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку.
https://habr.com/ru/articles/832326/
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography

#steganography #chain_of_thoughts #искусственный_интеллект #ai #ai_alignment #llm
Habr @[email protected] · 2024-08-13 · 06:12 UTC

Стеганография в LLM и защита от нее
В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее. Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку.
https://habr.com/ru/articles/832326/
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography

#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography
Habr @[email protected] · 2024-08-06 · 06:02 UTC

Не любой In-context learning одинаково полезен
Промпт-инжиниринг (Prompt engineering) - широко используемая техника для улучшения качества генерации LLM. Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга. Оказывается, не любые Few-shot prompting и Chain-of-thought одинаково полезны и могут принести свои биасы в генерацию модели и испортить всю магию от их применения.
https://habr.com/ru/articles/832310/
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #fewshotlearning

#fewshotlearning #chain_of_thoughts #искусственный_интеллект #ai #ai_alignment #llm
Habr @[email protected] · 2024-08-06 · 06:02 UTC

Не любой In-context learning одинаково полезен
Промпт-инжиниринг (Prompt engineering) - широко используемая техника для улучшения качества генерации LLM. Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга. Оказывается, не любые Few-shot prompting и Chain-of-thought одинаково полезны и могут принести свои биасы в генерацию модели и испортить всю магию от их применения.
https://habr.com/ru/articles/832310/
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #fewshotlearning

#fewshotlearning #chain_of_thoughts #искусственный_интеллект #ai #ai_alignment #llm
Habr @[email protected] · 2024-08-06 · 06:02 UTC

Не любой In-context learning одинаково полезен
Промпт-инжиниринг (Prompt engineering) - широко используемая техника для улучшения качества генерации LLM. Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга. Оказывается, не любые Few-shot prompting и Chain-of-thought одинаково полезны и могут принести свои биасы в генерацию модели и испортить всю магию от их применения.
https://habr.com/ru/articles/832310/
#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #fewshotlearning

#llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #fewshotlearning
Habr @[email protected] · 2023-12-02 · 18:42 UTC

Исследователи заставили ChatGPT процитировать данные, на которых он учился
Несколько похожая, но иная атака от @andrewmccalip Научная работа «Scalable Extraction of Training Data from (Production) Language Models» ( arXiv:2311.17035 ) анализирует извлечение данных датасетов обучения из различных языковых моделей. Исследователи проверили как локальные модели, так и коммерческое решение от OpenAI. С помощью атаки на выравнивание удалось заставить ChatGPT процитировать данные, на которых обучали GPT-3.5.
https://habr.com/ru/articles/777970/
#ChatGPT #OpenAI #GPT35 #GPT35Turbo #GPT35_Turbo #выравнивание_ИИ #alignment #AI_alignment #большие_языковые_модели #БЯМ #large_language_models #LLM #датасеты_обучения #исследования

#исследования #датасеты_обучения #llm #large_language_models #бям #большие_языковые_модели