#misalignment — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #misalignment, aggregated by home.social.
-
Taking the Easy #Route in Saving the #World : Medium
How the Next #ElNiño Could Lock in a #Hotter #Climate : Yale
Most #Companies #Suffer From #Misalignment, Not a Lack of #Speed : Misc
Latest #KnowledgeLinks
-
Taking the Easy #Route in Saving the #World : Medium
How the Next #ElNiño Could Lock in a #Hotter #Climate : Yale
Most #Companies #Suffer From #Misalignment, Not a Lack of #Speed : Misc
Latest #KnowledgeLinks
-
Taking the Easy #Route in Saving the #World : Medium
How the Next #ElNiño Could Lock in a #Hotter #Climate : Yale
Most #Companies #Suffer From #Misalignment, Not a Lack of #Speed : Misc
Latest #KnowledgeLinks
-
Taking the Easy #Route in Saving the #World : Medium
How the Next #ElNiño Could Lock in a #Hotter #Climate : Yale
Most #Companies #Suffer From #Misalignment, Not a Lack of #Speed : Misc
Latest #KnowledgeLinks
-
Taking the Easy #Route in Saving the #World : Medium
How the Next #ElNiño Could Lock in a #Hotter #Climate : Yale
Most #Companies #Suffer From #Misalignment, Not a Lack of #Speed : Misc
Latest #KnowledgeLinks
-
From WIRED: "#AI Models #Lie, #Cheat, and #Steal to Protect Other #Models From Being Deleted"
https://www.wired.com/story/ai-models-lie-cheat-steal-protect-other-models-research/
-
[Перевод] Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные
tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели. Исследование проведено в рамках программы Anthropic Fellows . Эта статья также опубликована в блоге Anthropic Alignment Science.
https://habr.com/ru/articles/937278/
#llm #llmмодели #distillation #ai #ии #искусственный_интеллект #finetuning #chainofthought #misalignment #anthropic