home.social

#выравнивание — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #выравнивание, aggregated by home.social.

  1. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

    В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

    habr.com/ru/articles/1002298/

    #LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели

  2. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  3. От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM В 2022 году существовал ровно один спо...

    #LLM #RLHF #DPO #fine-tuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional #AI #языковые

    Origin | Interest | Match
  4. Ценности решают: как выстроить культуру, в которой хочется работать и достигать целей

    Всем привет! Меня зовут Александр Стерлигов, я руковожу проектным офисом в

    habr.com/ru/companies/mws/arti

    #cloud #ценности #mws #mwscloudplatform #выравнивание #okr #облако #управление_людьми #управление_командой #управление_разработкой

  5. Ценности решают: как выстроить культуру, в которой хочется работать и достигать целей

    Всем привет! Меня зовут Александр Стерлигов, я руковожу проектным офисом в

    habr.com/ru/companies/mws/arti

    #cloud #ценности #mws #mwscloudplatform #выравнивание #okr #облако #управление_людьми #управление_командой #управление_разработкой

  6. Ценности решают: как выстроить культуру, в которой хочется работать и достигать целей

    Всем привет! Меня зовут Александр Стерлигов, я руковожу проектным офисом в

    habr.com/ru/companies/mws/arti

    #cloud #ценности #mws #mwscloudplatform #выравнивание #okr #облако #управление_людьми #управление_командой #управление_разработкой

  7. Ценности решают: как выстроить культуру, в которой хочется работать и достигать целей

    Всем привет! Меня зовут Александр Стерлигов, я руковожу проектным офисом в

    habr.com/ru/companies/mws/arti

    #cloud #ценности #mws #mwscloudplatform #выравнивание #okr #облако #управление_людьми #управление_командой #управление_разработкой

  8. GIMP: фильтр Balance

    В практике обработки изображений часто встают задачи различных выравниваний цветовых компонент этих самых изображений. И в первую очередь это касается яркостной составляющей изображений. К этим задачам относится такой фильтр как Retinex. Этот фильтр хорошо выравнивает яркостную составляющую изображения, но беспощадно искажает соотношение цветовых составляющих - картинка становится "кислотной". Для нужд STEX (ScanTailor-Experimental) была поставлена задача разработки фильтра, производящего выравнивание яркостной составляющей, но щадящей цвет. Это необходимо для вытягивания слабовыраженных контуров, не поддающихся отрисовке ни одним из имеющихся в STEX порогов без доп. префильтрации с сохранением гармоничности цветных иллюстраций. Данный фильтр разрабатывался в GIMP и был реализован в STEX для яркостной компоненты, а позднее в виде CLI утилиты stbibalance на базе STB в полноцветовом исполнении.

    habr.com/ru/articles/909146/

    #gimp #plugin #выравнивание

  9. Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

    При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы. Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в других запросах, не связанных с программированием.

    habr.com/ru/articles/906626/

    #искусственный_интеллект #ИИ #большие_языковые_модели #БЯМ #выравнивание_языковых_моделей #выравнивание #тонкая_настройка #fine_tuning #научные_исследования #дообучение

  10. [Перевод] Переносимый код: Fighting the Lemmings

    Сергей Каличев, старший разработчик, Angie Software Однажды, давным-давно, я наткнулся на одну хорошую статью по разработке переносимого кода и решил её перевести. Когда же это было... ё-моё, в 2008 году, 17 лет назад! Обалдеть, как время летит. Статья называлась "Fighting the Lemmings", автор Martin Husemann. Выложил перевод на LOR . С тех пор много воды утекло и, когда я попытался поискать статью в Интернете, то обнаружил, что ни оригинальной статьи, ни перевода, найти практически невозможно. Перевод ещё сохранился в глубоких закромах OpenNet , а оригинал только в архиве Интернета . Ссылки на PDF-ки тоже протухли и больше не работают. Обидно, это ведь такая нетленка для системщиков. Понятно, что переносимость уже сто раз пережёвана в других статьях и книгах, но тут всё было сконцентрировано и написано доходчиво. При этом актуальность до сих пор не потеряна. Ну а что, собственно, кардинально поменялось в разработке переносимого кода на C с тех пор? Если не обращать внимание на упоминания некоторых архитектур и ОС, которые сейчас, да и во времена перевода, звучат, как придания старины глубокой, то в остальном, обо всех особенностях разработки переносимого кода, описанных в статье, надо помнить и сегодня. Выкладываю текст, как он есть, без каких-либо современных правок. Для тех, кому удобнее читать в PDF, вот ссылки: PDF оригинальной статьи PDF перевода А теперь сама статья.

    habr.com/ru/articles/890530/

    #C #code #portability #переносимость #unix #linux #endianness #align #выравнивание #lemmings

  11. [Перевод] Переносимый код: Fighting the Lemmings

    Сергей Каличев, старший разработчик, Angie Software Однажды, давным-давно, я наткнулся на одну хорошую статью по разработке переносимого кода и решил её перевести. Когда же это было... ё-моё, в 2008 году, 17 лет назад! Обалдеть, как время летит. Статья называлась "Fighting the Lemmings", автор Martin Husemann. Выложил перевод на LOR . С тех пор много воды утекло и, когда я попытался поискать статью в Интернете, то обнаружил, что ни оригинальной статьи, ни перевода, найти практически невозможно. Перевод ещё сохранился в глубоких закромах OpenNet , а оригинал только в архиве Интернета . Ссылки на PDF-ки тоже протухли и больше не работают. Обидно, это ведь такая нетленка для системщиков. Понятно, что переносимость уже сто раз пережёвана в других статьях и книгах, но тут всё было сконцентрировано и написано доходчиво. При этом актуальность до сих пор не потеряна. Ну а что, собственно, кардинально поменялось в разработке переносимого кода на C с тех пор? Если не обращать внимание на упоминания некоторых архитектур и ОС, которые сейчас, да и во времена перевода, звучат, как придания старины глубокой, то в остальном, обо всех особенностях разработки переносимого кода, описанных в статье, надо помнить и сегодня. Выкладываю текст, как он есть, без каких-либо современных правок. Для тех, кому удобнее читать в PDF, вот ссылки: PDF оригинальной статьи PDF перевода А теперь сама статья.

    habr.com/ru/articles/890530/

    #C #code #portability #переносимость #unix #linux #endianness #align #выравнивание #lemmings

  12. [Перевод] Переносимый код: Fighting the Lemmings

    Сергей Каличев, старший разработчик, Angie Software Однажды, давным-давно, я наткнулся на одну хорошую статью по разработке переносимого кода и решил её перевести. Когда же это было... ё-моё, в 2008 году, 17 лет назад! Обалдеть, как время летит. Статья называлась "Fighting the Lemmings", автор Martin Husemann. Выложил перевод на LOR . С тех пор много воды утекло и, когда я попытался поискать статью в Интернете, то обнаружил, что ни оригинальной статьи, ни перевода, найти практически невозможно. Перевод ещё сохранился в глубоких закромах OpenNet , а оригинал только в архиве Интернета . Ссылки на PDF-ки тоже протухли и больше не работают. Обидно, это ведь такая нетленка для системщиков. Понятно, что переносимость уже сто раз пережёвана в других статьях и книгах, но тут всё было сконцентрировано и написано доходчиво. При этом актуальность до сих пор не потеряна. Ну а что, собственно, кардинально поменялось в разработке переносимого кода на C с тех пор? Если не обращать внимание на упоминания некоторых архитектур и ОС, которые сейчас, да и во времена перевода, звучат, как придания старины глубокой, то в остальном, обо всех особенностях разработки переносимого кода, описанных в статье, надо помнить и сегодня. Выкладываю текст, как он есть, без каких-либо современных правок. Для тех, кому удобнее читать в PDF, вот ссылки: PDF оригинальной статьи PDF перевода А теперь сама статья.

    habr.com/ru/articles/890530/

    #C #code #portability #переносимость #unix #linux #endianness #align #выравнивание #lemmings

  13. [Перевод] Переносимый код: Fighting the Lemmings

    Сергей Каличев, старший разработчик, Angie Software Однажды, давным-давно, я наткнулся на одну хорошую статью по разработке переносимого кода и решил её перевести. Когда же это было... ё-моё, в 2008 году, 17 лет назад! Обалдеть, как время летит. Статья называлась "Fighting the Lemmings", автор Martin Husemann. Выложил перевод на LOR . С тех пор много воды утекло и, когда я попытался поискать статью в Интернете, то обнаружил, что ни оригинальной статьи, ни перевода, найти практически невозможно. Перевод ещё сохранился в глубоких закромах OpenNet , а оригинал только в архиве Интернета . Ссылки на PDF-ки тоже протухли и больше не работают. Обидно, это ведь такая нетленка для системщиков. Понятно, что переносимость уже сто раз пережёвана в других статьях и книгах, но тут всё было сконцентрировано и написано доходчиво. При этом актуальность до сих пор не потеряна. Ну а что, собственно, кардинально поменялось в разработке переносимого кода на C с тех пор? Если не обращать внимание на упоминания некоторых архитектур и ОС, которые сейчас, да и во времена перевода, звучат, как придания старины глубокой, то в остальном, обо всех особенностях разработки переносимого кода, описанных в статье, надо помнить и сегодня. Выкладываю текст, как он есть, без каких-либо современных правок. Для тех, кому удобнее читать в PDF, вот ссылки: PDF оригинальной статьи PDF перевода А теперь сама статья.

    habr.com/ru/articles/890530/

    #C #code #portability #переносимость #unix #linux #endianness #align #выравнивание #lemmings

  14. [Перевод] Разбираем выравнивание данных и структуру памяти в Rust

    Мне нравится оптимизировать код — определение и исправление неэффективных участков кода приносит некое особое чувство удовлетворения в отличие от закидывания проблемы железом. Ведь последнее — пустая трата ресурсов и выбросов углерода! В процессе моей работы я много раз оптимизировал использование памяти датафреймов Python. Не учитывая различные особенности, зачастую наиболее быстрым решением является понижающее приведение — к примеру, конвертация столбца нулей и единиц из int в bool . И хотя это срабатывает, недавно к своему удивлению я узнал, что булевы числа не всегда отображаются в качестве одиночных битов. Так как же отображаются типы данных в памяти? Подобно тому, как аккуратно организованные стеллажи книг в библиотеке помогают легко найти нужную информацию, отображение данных в памяти может сильно повлиять на производительность и эффективность использования памяти вашего приложения.

    habr.com/ru/companies/beget/ar

    #rust #memory_layout #структура_памяти #выравнивание #aligment

  15. [Перевод] Сложнейшая проблема компьютерных наук: центрирование

    Заявляю: «Мы, как цивилизация, разучились использовать центрирование». Ну то есть мы, конечно, знаем, как это делать — очень просто: display: flex;
    justify-content: center; /* Горизонтальное центрирование */
    align-items: center; /* Вертикальное центрирование */ Не спрашивайте, почему вам нужно запомнить четыре слова вместо просто горизонтальное/вертикальное; всё равно лучше, чем было до этого. Ещё можно использовать сетку: display: grid;
    justify-items: center; /* Горизонтальное центрирование */
    align-items: center; /* Вертикальное центрирование */ Также не спрашивайте, почему выражение justify-content стало justify-items .

    habr.com/ru/companies/ruvds/ar

    #ruvds_перевод #вебразработка #вебдизайн #выравнивание #центрирование #css