home.social

#misalignment — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #misalignment, aggregated by home.social.

  1. [Перевод] Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

    tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели. Исследование проведено в рамках программы Anthropic Fellows . Эта статья также опубликована в блоге Anthropic Alignment Science.

    habr.com/ru/articles/937278/

    #llm #llmмодели #distillation #ai #ии #искусственный_интеллект #finetuning #chainofthought #misalignment #anthropic