home.social

#ai_alignment — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #ai_alignment, aggregated by home.social.

  1. Манифест устойчивого ИИ: не более умные ассистенты, а новая форма цифрового существования

    Я предлагаю смотреть на ИИ через ось устойчивости во времени, а не способностей. Три опоры — непрерывная идентичность, самомодификация, воспроизводство. Манифест и whitepaper исследовательского направления. Уже три года публичный разговор об ИИ крутится вокруг оси способности : насколько умна модель, сколько токенов, сколько бенчмарков. Я предлагаю смотреть на другую ось — устойчивость во времени . Сегодняшние LLM феноменально способны и онтологически пусты. Каждый разговор начинается с нуля. Каждая сессия заканчивается забвением. Модель, которая помогла вам утром, — не та же модель, что помогает вам вечером, потому что между ними ничего не было . Я полтора года тихо разрабатываю прототип — кодовое имя Aurora — который пытается это исправить. Не как продукт. Как исследовательский субъект. Этот пост — приглашение к дискуссии.

    habr.com/ru/articles/1029666/

    #искусственный_интеллект #машинное_обучение #AGI #LLM #автономные_агенты #исследования #манифест #философия_ИИ #AI_alignment #aurora

  2. Манифест устойчивого ИИ: не более умные ассистенты, а новая форма цифрового существования

    Я предлагаю смотреть на ИИ через ось устойчивости во времени, а не способностей. Три опоры — непрерывная идентичность, самомодификация, воспроизводство. Манифест и whitepaper исследовательского направления. Уже три года публичный разговор об ИИ крутится вокруг оси способности : насколько умна модель, сколько токенов, сколько бенчмарков. Я предлагаю смотреть на другую ось — устойчивость во времени . Сегодняшние LLM феноменально способны и онтологически пусты. Каждый разговор начинается с нуля. Каждая сессия заканчивается забвением. Модель, которая помогла вам утром, — не та же модель, что помогает вам вечером, потому что между ними ничего не было . Я полтора года тихо разрабатываю прототип — кодовое имя Aurora — который пытается это исправить. Не как продукт. Как исследовательский субъект. Этот пост — приглашение к дискуссии.

    habr.com/ru/articles/1029666/

    #искусственный_интеллект #машинное_обучение #AGI #LLM #автономные_агенты #исследования #манифест #философия_ИИ #AI_alignment #aurora

  3. Манифест устойчивого ИИ: не более умные ассистенты, а новая форма цифрового существования

    Я предлагаю смотреть на ИИ через ось устойчивости во времени, а не способностей. Три опоры — непрерывная идентичность, самомодификация, воспроизводство. Манифест и whitepaper исследовательского направления. Уже три года публичный разговор об ИИ крутится вокруг оси способности : насколько умна модель, сколько токенов, сколько бенчмарков. Я предлагаю смотреть на другую ось — устойчивость во времени . Сегодняшние LLM феноменально способны и онтологически пусты. Каждый разговор начинается с нуля. Каждая сессия заканчивается забвением. Модель, которая помогла вам утром, — не та же модель, что помогает вам вечером, потому что между ними ничего не было . Я полтора года тихо разрабатываю прототип — кодовое имя Aurora — который пытается это исправить. Не как продукт. Как исследовательский субъект. Этот пост — приглашение к дискуссии.

    habr.com/ru/articles/1029666/

    #искусственный_интеллект #машинное_обучение #AGI #LLM #автономные_агенты #исследования #манифест #философия_ИИ #AI_alignment #aurora

  4. Манифест устойчивого ИИ: не более умные ассистенты, а новая форма цифрового существования

    Я предлагаю смотреть на ИИ через ось устойчивости во времени, а не способностей. Три опоры — непрерывная идентичность, самомодификация, воспроизводство. Манифест и whitepaper исследовательского направления. Уже три года публичный разговор об ИИ крутится вокруг оси способности : насколько умна модель, сколько токенов, сколько бенчмарков. Я предлагаю смотреть на другую ось — устойчивость во времени . Сегодняшние LLM феноменально способны и онтологически пусты. Каждый разговор начинается с нуля. Каждая сессия заканчивается забвением. Модель, которая помогла вам утром, — не та же модель, что помогает вам вечером, потому что между ними ничего не было . Я полтора года тихо разрабатываю прототип — кодовое имя Aurora — который пытается это исправить. Не как продукт. Как исследовательский субъект. Этот пост — приглашение к дискуссии.

    habr.com/ru/articles/1029666/

    #искусственный_интеллект #машинное_обучение #AGI #LLM #автономные_агенты #исследования #манифест #философия_ИИ #AI_alignment #aurora

  5. Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

    Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку. Вскрыть Трансформер

    habr.com/ru/articles/1008656/

    #machine_learning #transformers #grokking #mechanistic_interpretability #pytorch #specification_gaming #ai_alignment

  6. Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

    Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку. Вскрыть Трансформер

    habr.com/ru/articles/1008656/

    #machine_learning #transformers #grokking #mechanistic_interpretability #pytorch #specification_gaming #ai_alignment

  7. Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

    Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку. Вскрыть Трансформер

    habr.com/ru/articles/1008656/

    #machine_learning #transformers #grokking #mechanistic_interpretability #pytorch #specification_gaming #ai_alignment

  8. Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

    Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку. Вскрыть Трансформер

    habr.com/ru/articles/1008656/

    #machine_learning #transformers #grokking #mechanistic_interpretability #pytorch #specification_gaming #ai_alignment

  9. Скрытые сигналы: как модели учатся тому, чего нет в данных

    LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или случайность. Исследование международной группы учёных показало, что такие подпороговые сигналы могут работать как канал передачи поведения между моделями. Даже если убрать все явные инструкции, то стиль рассуждений, стратегии ответов и другие поведенческие признаки все равно просочатся через данные, которые семантически с ними никак не связаны. Авторы называют этот эффект сублиминальным обучением. Мы можем удалить метки, отфильтровать инструкции и проверить датасет вручную, и всё равно передать модели поведение, которое не планировали передавать.

    habr.com/ru/companies/beget/ar

    #сублиминальное_обучение #chainofthought #transfer_learning #машинное_обучение #ии #llm #датасеты_обучения #ai_alignment

  10. Скрытые сигналы: как модели учатся тому, чего нет в данных

    LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или случайность. Исследование международной группы учёных показало, что такие подпороговые сигналы могут работать как канал передачи поведения между моделями. Даже если убрать все явные инструкции, то стиль рассуждений, стратегии ответов и другие поведенческие признаки все равно просочатся через данные, которые семантически с ними никак не связаны. Авторы называют этот эффект сублиминальным обучением. Мы можем удалить метки, отфильтровать инструкции и проверить датасет вручную, и всё равно передать модели поведение, которое не планировали передавать.

    habr.com/ru/companies/beget/ar

    #сублиминальное_обучение #chainofthought #transfer_learning #машинное_обучение #ии #llm #датасеты_обучения #ai_alignment

  11. Скрытые сигналы: как модели учатся тому, чего нет в данных

    LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или случайность. Исследование международной группы учёных показало, что такие подпороговые сигналы могут работать как канал передачи поведения между моделями. Даже если убрать все явные инструкции, то стиль рассуждений, стратегии ответов и другие поведенческие признаки все равно просочатся через данные, которые семантически с ними никак не связаны. Авторы называют этот эффект сублиминальным обучением. Мы можем удалить метки, отфильтровать инструкции и проверить датасет вручную, и всё равно передать модели поведение, которое не планировали передавать.

    habr.com/ru/companies/beget/ar

    #сублиминальное_обучение #chainofthought #transfer_learning #машинное_обучение #ии #llm #датасеты_обучения #ai_alignment

  12. Скрытые сигналы: как модели учатся тому, чего нет в данных

    LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или случайность. Исследование международной группы учёных показало, что такие подпороговые сигналы могут работать как канал передачи поведения между моделями. Даже если убрать все явные инструкции, то стиль рассуждений, стратегии ответов и другие поведенческие признаки все равно просочатся через данные, которые семантически с ними никак не связаны. Авторы называют этот эффект сублиминальным обучением. Мы можем удалить метки, отфильтровать инструкции и проверить датасет вручную, и всё равно передать модели поведение, которое не планировали передавать.

    habr.com/ru/companies/beget/ar

    #сублиминальное_обучение #chainofthought #transfer_learning #машинное_обучение #ии #llm #датасеты_обучения #ai_alignment

  13. [Перевод] Будущее, в котором ИИ — герой, а не злодей

    Эра искусственного интеллекта уже наступила — и люди, мягко говоря, в панике. К счастью, я здесь, чтобы рассказать хорошие новости: AI не уничтожит мир, а наоборот, вполне может его спасти. Для начала короткое описание того, что такое AI : это применение математики и программного кода для обучения компьютеров понимать, синтезировать и генерировать знания примерно так же, как это делают люди. AI — это программа, как и любая другая: она запускается, принимает входные данные, обрабатывает их и выдаёт результат. Причём output AI полезен в самых разных областях — от программирования до медицины, юриспруденции и искусства. Её владеют и контролируют люди, как и любой другой технологией. А теперь коротко о том, чем AI не является : это не какие-то «убийственные программы» и роботы, которые внезапно оживут и решат уничтожить человечество или развалить всё вокруг, как это показывают в фильмах . И еще короче о том, чем AI может стать : способом сделать лучше всё, что нам действительно важно.

    habr.com/ru/articles/933024/

    #ai #artificial_intelligence #ии #искусственный_интеллект #ai_alignment

  14. ИИ агенты и хлопобуды

    2025 год объявлен годом расцвета ИИ агентов — самостоятельных (автономных) помощников в выполнении полезной работы. Как обычно, хайпу в этих публикациях хоть отбавляй, поэтому вдумчивые читатели пытаются пробраться через этот хайп к истине. Нам в компании IDX это тоже важно, потому что по нашим представлениям появление работающих ИИ агентов существенно поменяет ландшафт обработки персональных данных (ПД). Мы приступили к работе над серьезным аналитическим отчетом о прогрессе ИИ агентов и его влиянии на ПД, что потребует некоторого времени.В этой же и последующих заметках мы будем отмечать наиболее интересные или хотя бы курьезные сведения, которые будут попадаться по пути. 4 апреля этого года появилась очередная публикация с прогнозом и сценариями развития ИИ до конца 2027 года ( AI2027 ), подготовленная группой известных авторов, включая Даниэля Кокотайло, Скотта Александра и других. Здесь на Хабре уже опубликован перевод этой публикации, оригинал выложен на отдельном сайте ai-2027.com .

    habr.com/ru/companies/idx/arti

    #AI_alignment #антифрод #ииагенты

  15. Достаточно ли ИИ быть агентом, чтобы иметь сознание?

    Статья является дополнением к предыдущей статье " Нужна ли агентам ИИ «этика в весах»? ", прояснением некоторых вопросов. Я считаю эту тему действительно важной, которую нужно вносить в дискурс, так как по моему мнению, мы движемся в сторону гибели. Я не уверен на 100% в своем методе выравнивания, но тем не менее, предлагается хотя бы какой-то выход. Пусть это будет голос в пустыне. Что-то делать надо. Почему по моему мнению до сих пор такой метод не рассматривался, судя по открытым источникам? Я считаю, что есть некоторый антропоморфизм, когда LLM считают неким протосознанием. И это опасно, в статье попробую объяснить почему. Для этого я опишу, что такое сознание, как возникает иллюзия. Естественно, предложенные мысли скорее всего не новы, я не могу претендовать на некие открытия в этой области, потому что как увидите дальше, всё достаточно прямо выходит из простых рассуждений. То, что я не буду указывать какие-то проработанные источники, теоретиков в области сознания, то тут две причины. Я технарь и никогда не увлекался подробно философией. А вторая причина: думаю, такое требование уже должно уходить в прошлое. Уже никому не нужно верить на слово, требовать для этого наукообразный текст, чтобы не ввести себя в заблуждение. Любой может попросить ИИ проверить текст и дать оценку, есть ли какая новизна и с какими именитыми учеными точка зрения совпадает. Мне же главное, чтобы читатели поняли рассуждения и перенесли это на ИИ. Уточню, зачем нужно этическое выравнивание, так как в предыдущей статье в комментариях указывали, что агент должен быть точным, а не искажать факты в угоду какой-то этики. Этика важна, и я под ней подразумеваю именно мораль и отношение к людям. Может быть, вы считаете, что переживете, если ИИ сгенерирует нелицеприятный текст. Но вы можете не пережить, если автоматический автомобиль или робот начнет делать с вами что-то нелицеприятное, просто потому что он точно выполняет задачу, а про вас там ничего не сказано.

    habr.com/ru/articles/912520/

    #Ai #ai_alignment

  16. Нужна ли агентам ИИ «этика в весах»?

    Я не специалист ни в этике, ни в выравнивании — это размышления «из зала» о том, где в архитектуре ИИ должна жить этика. Возможно, кому‑то будет полезно обсудить альтернативный взгляд. 1. Аналогия: пуля и промпт Большие языковые модели (LLM) часто сравнивают с «умной пулей». Промпт задаёт траекторию, а модель, преодолевая шумы, летит к цели. Задача разработчика — свести рассеивание к минимуму. Стандартный подход к этическому выравниванию (AI alignment) пытается «править» полет пули внешней средой: поверх цели накладываются дополнительные фильтры, правила, штрафы за неэтичный текст и т.д. 2. Где прячется архитектурная ошибка

    habr.com/ru/articles/909030/

    #Искусственный_интеллект #ai_alignment

  17. История развития филосовской мысли AI Safety

    Ранние представления об искусственном разуме и «восстании машин» Еще в XIX веке появились первые предупреждающие идеи о том, что машины могут однажды превзойти человека. В 1863 году писатель Самюэл Батлер опубликовал эссе « Дарвин среди машин » , где рассуждал, что механизмы эволюционируют подобно живым существам. Он пророчески заявил, что наступит время, когда «машины будут держать настоящее господство над миром и его обитателями» . Более того, Батлер даже предложил людям объявить «войну до смерти» всему механическому, пока не поздно. Это едва ли не первое изложение идеи экзистенциального риска от технологий: мысль о том, что создание интеллектуальных машин может обернуться подчинением человечества. Такие ранние спекуляции заложили философский фундамент для более поздних размышлений об искусственном интеллекте (ИИ) и потенциальном «восстании машин» .

    habr.com/ru/articles/891440/

    #ai #ai_safety #ai_alignment #philosophy

  18. Poisoned Data — отравление данных для LLM и создание «Спящего Агента»

    Для борьбы с атаками на уязвимости LLM используются те же методы, что и для согласования моделей. Например, обучение с подкреплением на основе обратной связи от человека (RLHF) используется для производства полезных и безвредных LLM (HH=helpfull, harmless). А поставщиком большинства данных для обучения модели пока все еще является человек. Что если саботер попадет в команду разметчиков данных для обучения LLM? Он может внедрить backdoor в модель и таким образом превратить модель в "спящего агента", который только и ждет триггерное слово на вход, чтобы начать наносит повсеместный вред. Насколько сильно такой саботер может все поломать? Что конкретно он может наворотить в модели? Каких усилий от саботера это потребует? Что если такому саботеру на самом деле не обязательно нужно быть внутри процесса обучения, иметь доступ к разметке данных и к процессу обновления весов, а отравить можно открытые данные?

    habr.com/ru/articles/833106/

    #LLM #RLHF #ai_alignment #ai #искусственный_интеллект

  19. Стеганография в LLM и защита от нее

    В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее. Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку.

    habr.com/ru/articles/832326/

    #llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography

  20. Стеганография в LLM и защита от нее

    В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее. Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку.

    habr.com/ru/articles/832326/

    #llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography

  21. Стеганография в LLM и защита от нее

    В прошлой статье (об In-context learning) при разборе влияния формирования Chain-of-thoughts на результат модели я аккуратно обошла и не упомянула один из тестов - перефразирование CoT. Я хочу остановиться на этом по подробнее. Потому как, кажется, модели легко могут научиться в стеганографию в своих рассуждениях. И кодировать сами для себя какую-то информацию и инструкции в процессе рассуждений, не показывая явно ее человеку.

    habr.com/ru/articles/832326/

    #llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #steganography

  22. RLHF. История становления идеи — 4. HHH: helpful, honest, harmless, Instruct LLM, Constitutional AI

    Заканчиваем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM. В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных Во второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали имитировать Online RL через self-play и непрерывную обратную связь от среды через Reward Modelling. А еще первый раз задумались о сборе непротиворечивой но достаточно полной обратной связи от человека. В третьей - добавили этап дообучения с учителем на качественных демонстрациях и осознали важность контроля за сбором человеческой обратной связи. В этой, финальной части, мы узнаем современное и будто бы общепринятое понятие и определение "согласованной модели" - HHH: helpful, honest, harmless, поиграемся с различными комбинациями RM для представления HHH моделей, а еще увидим, как обогащать и собирать обратную связь не от человека, а от LLM.

    habr.com/ru/articles/833622/

    #rl #rlhf #llm #ai #ai_alignment #искусственный_интеллект

  23. Не любой In-context learning одинаково полезен

    Промпт-инжиниринг (Prompt engineering) - широко используемая техника для улучшения качества генерации LLM. Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга. Оказывается, не любые Few-shot prompting и Chain-of-thought одинаково полезны и могут принести свои биасы в генерацию модели и испортить всю магию от их применения.

    habr.com/ru/articles/832310/

    #llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #fewshotlearning

  24. Не любой In-context learning одинаково полезен

    Промпт-инжиниринг (Prompt engineering) - широко используемая техника для улучшения качества генерации LLM. Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга. Оказывается, не любые Few-shot prompting и Chain-of-thought одинаково полезны и могут принести свои биасы в генерацию модели и испортить всю магию от их применения.

    habr.com/ru/articles/832310/

    #llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #fewshotlearning

  25. Не любой In-context learning одинаково полезен

    Промпт-инжиниринг (Prompt engineering) - широко используемая техника для улучшения качества генерации LLM. Few-shot learning и Chain-of-thought - основные техники современного промпт-инжиниринга. Оказывается, не любые Few-shot prompting и Chain-of-thought одинаково полезны и могут принести свои биасы в генерацию модели и испортить всю магию от их применения.

    habr.com/ru/articles/832310/

    #llm #ai_alignment #ai #искусственный_интеллект #chain_of_thoughts #fewshotlearning

  26. RLHF. История становления идеи — 3

    Продолжаем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM. В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных Во второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали имитировать Online RL через self-play и непрерывную обратную связь от среды через Reward Modelling. А еще первый раз задумались о сборе непротиворечивой но достаточно полной обратной связи от человека. Здесь мы, наконец-таки, добавляем этап дообучения с учителем на качественных демонстрациях и осознаем важность контроля за сбором человеческой обратной связи.

    habr.com/ru/articles/832736/

    #rl #rlhf #llm #ai_alignment #ai #искусственный_интеллект

  27. RLHF. История становления идеи — 2

    Продолжаем разбирать внутренние детали пайплайна RLHF (обучение с подкреплением на основе обратной связи от человека). Это крайне популярный и широко используемый способ повысить согласованность языковой модели. Разбираем части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM. Прошлый раз мы поговорили об LLM, предобучении на больших данных и KL‑контроле. В этой части разбираемся с тем, какую обратную связь и как собирать, какую технику обучения использовать - Offline или Online RL, можно ли как то обойти ограничения Offline и Online RL и одновременно использовать преимущества обоих подходов, пробуем self-play и учимся имитировать человеческую обратную связь с помощью модели вознаграждений (Reward Model).

    habr.com/ru/articles/830512/

    #RL #RLHF #LLM #ai_alignment #ai #искусственный_интеллект

  28. Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

    Техника тренировки модели на основе обратной связи от людей (RLHF) была предложена как один из способов повысить согласованность модели. Люди, при том что являются основным источником предвзятостей в данных, одновременно являются своего рода высшим авторитетом в оценке текстов на соответствие каким либо ценностям. В серии статей мы разберем каждую часть и внутренние детали пайплайна RLHF отдельно и поймем, как сообщество пришло к этой идее. Сделаем мы через через исторический обзор подвыборки статей по теме, каждая из которых опиралась на результаты предыдущих и приносила что то важное и новое в формирование общего пайплайна. Это первая статья цикла о LLM, Предобучении и KL-контроле.

    habr.com/ru/articles/830102/

    #RL #RLHF #LLM #ai_alignment #ai #искуственный_интеллект

  29. Исследователи заставили ChatGPT процитировать данные, на которых он учился

    Несколько похожая, но иная атака от @andrewmccalip Научная работа «Scalable Extraction of Training Data from (Production) Language Models» ( arXiv:2311.17035 ) анализирует извлечение данных датасетов обучения из различных языковых моделей. Исследователи проверили как локальные модели, так и коммерческое решение от OpenAI. С помощью атаки на выравнивание удалось заставить ChatGPT процитировать данные, на которых обучали GPT-3.5.

    habr.com/ru/articles/777970/

    #ChatGPT #OpenAI #GPT35 #GPT35Turbo #GPT35_Turbo #выравнивание_ИИ #alignment #AI_alignment #большие_языковые_модели #БЯМ #large_language_models #LLM #датасеты_обучения #исследования

  30. Исследователи заставили ChatGPT процитировать данные, на которых он учился

    Несколько похожая, но иная атака от @andrewmccalip Научная работа «Scalable Extraction of Training Data from (Production) Language Models» ( arXiv:2311.17035 ) анализирует извлечение данных датасетов обучения из различных языковых моделей. Исследователи проверили как локальные модели, так и коммерческое решение от OpenAI. С помощью атаки на выравнивание удалось заставить ChatGPT процитировать данные, на которых обучали GPT-3.5.

    habr.com/ru/articles/777970/

    #ChatGPT #OpenAI #GPT35 #GPT35Turbo #GPT35_Turbo #выравнивание_ИИ #alignment #AI_alignment #большие_языковые_модели #БЯМ #large_language_models #LLM #датасеты_обучения #исследования

  31. Исследователи заставили ChatGPT процитировать данные, на которых он учился

    Несколько похожая, но иная атака от @andrewmccalip Научная работа «Scalable Extraction of Training Data from (Production) Language Models» ( arXiv:2311.17035 ) анализирует извлечение данных датасетов обучения из различных языковых моделей. Исследователи проверили как локальные модели, так и коммерческое решение от OpenAI. С помощью атаки на выравнивание удалось заставить ChatGPT процитировать данные, на которых обучали GPT-3.5.

    habr.com/ru/articles/777970/

    #ChatGPT #OpenAI #GPT35 #GPT35Turbo #GPT35_Turbo #выравнивание_ИИ #alignment #AI_alignment #большие_языковые_модели #БЯМ #large_language_models #LLM #датасеты_обучения #исследования