home.social

#reinforcement_learning — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #reinforcement_learning, aggregated by home.social.

  1. От «Долгого Джонта» Кинга до pip install: пишем HAL для атомного манипулятора

    Начал с фантазий про телепортацию из рассказа Кинга, закончил Python-пакетом для управления атомным микроскопом. Симулятор вместо оборудования за $500K, замена LabVIEW на asyncio, drop-in для RL-агента.

    habr.com/ru/articles/1014592/

    #STM #машинное_обучение #reinforcement_learning #python #open_source #нанотехнологии

  2. От «Долгого Джонта» Кинга до pip install: пишем HAL для атомного манипулятора

    Начал с фантазий про телепортацию из рассказа Кинга, закончил Python-пакетом для управления атомным микроскопом. Симулятор вместо оборудования за $500K, замена LabVIEW на asyncio, drop-in для RL-агента.

    habr.com/ru/articles/1014592/

    #STM #машинное_обучение #reinforcement_learning #python #open_source #нанотехнологии

  3. От «Долгого Джонта» Кинга до pip install: пишем HAL для атомного манипулятора

    Начал с фантазий про телепортацию из рассказа Кинга, закончил Python-пакетом для управления атомным микроскопом. Симулятор вместо оборудования за $500K, замена LabVIEW на asyncio, drop-in для RL-агента.

    habr.com/ru/articles/1014592/

    #STM #машинное_обучение #reinforcement_learning #python #open_source #нанотехнологии

  4. Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)

    Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями. Очень интересно, хочу прочитать!

    habr.com/ru/articles/1001676/

    #кредитный_лимит #Apple_Card #Reinforcement_Learning #поведенческая_экономика

  5. Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)

    Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями. Очень интересно, хочу прочитать!

    habr.com/ru/articles/1001676/

    #кредитный_лимит #Apple_Card #Reinforcement_Learning #поведенческая_экономика

  6. Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)

    Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями. Очень интересно, хочу прочитать!

    habr.com/ru/articles/1001676/

    #кредитный_лимит #Apple_Card #Reinforcement_Learning #поведенческая_экономика

  7. Лимит доверия: как ИИ решает, сколько денег вам можно дать (и почему это часто несправедливо)

    Что влияет на размер вашего кредитного лимита? И почему банк может вдруг его уменьшить, даже если вы всегда вовремя вносите платежи? В предыдущей статье мы выяснили, как банки применяют модели машинного обучения для определения вашей кредитоспособности; в этой статье мы рассмотрим примеры Synchrony Bank и Apple Card, объясним тактику “low-and-grow” и продемонстрируем, как банки задействуют поведенческую экономику и обучение с подкреплением для контроля над вашими задолженностями. Очень интересно, хочу прочитать!

    habr.com/ru/articles/1001676/

    #кредитный_лимит #Apple_Card #Reinforcement_Learning #поведенческая_экономика

  8. Kimi K2.5: Как научить нейросеть не бояться параллельности

    Moonshot AI выкатили K2.5. Пресс-релиз трубит про «самую мощную open-source модель», но я бы хотел поговорить о другом — о том, что они сделали с агентами. Начну с конца. Там есть график, который стоит тысячи слов. Ось X — сложность задачи. Ось Y — время выполнения. Две линии: одиночный агент и рой агентов. Одиночный агент карабкается вверх линейно. Рой держится почти горизонтально. На сложных задачах разрыв — в четыре с половиной раза. Параллельные агенты обсуждают давно, но тут впервые показали, как этому научить модель, а не прописывать логику декомпозиции вручную. Также, выдали доступ к этим агентам по ценам, похожим на ChatGPT — настоящий рой агентов, выданный в одни руки, за сравнимую стоимость — фантастика. Интересно. Читать далее

    habr.com/ru/companies/bar/arti

    #машинное_обучение #reinforcement_learning #LLM #мультиагентные_системы #нейросети #искусственный_интеллект #deep_learning #open_source #параллельные_вычисления #Moonshot_AI

  9. Открытый репозиторий для изучения онлайн-рекламы: датасет, подборка материалов, симулятор и примеры RL-агентов

    Привет, Хабр! Меня зовут Дмитрий Фролов, я ведущий разработчик в Центре компетенций Data Science МТС Web Services. За каждым показом онлайн-рекламы стоит очень сложный механизм. Одно из его ключевых понятий — Real-Time Bidding (RTB). Это аукцион онлайн-рекламы, где решается, какое объявление будет показано пользователю на определенном веб-сайте или в приложении. Особенность RTB — необходимость максимально быстро принять решение, для чего системы обучаются с помощью технологии reinforcement learning (RL). Это достаточно сложная задача — доступных материалов по ней не так много и непонятно, с какой стороны подступиться. Вместе с коллегами мы собрали репозиторий , который может помочь разработчикам погрузиться в специфику онлайн-аукционов. Он содержит датасет с данными RTB, подборку теоретических материалов, симулятор аукционов и примеры работающих RL-алгоритомов. Все подробности и ссылки — под катом.

    habr.com/ru/companies/ru_mts/a

    #онлайнреклама #realtime_bidding #reinforcement_learning #оптимизация_ставок

  10. Reinforcement Learning: Policy gradient methods

    В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ノ◕ヮ◕)ノ

    habr.com/ru/articles/979394/

    #Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage

  11. В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ

    Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий искусственного интеллекта. Разработка поможет ускорить и упростить процесс производства оборудования для сетей пятого поколения, что особенно важно для крупных городов, где требуется быстрая и точная настройка тысяч базовых станций. Работа выполнена по предложению входящей в «ИКС Холдинг» компании YADRO, одно из направлений деятельности которой — разработка и производство телекоммуникационного оборудования операторского класса. Базовая станция должна одновременно принимать и передавать сигнал через общую антенну. Для этого применяется частотное разделение каналов, за которое отвечает дуплексер. Точность подбора его параметров напрямую влияет на качество связи. При этом настройка дуплексера — трудоёмкий процесс, требующий несколько часов работы опытного специалиста. Одна базовая станция может содержать более десяти радиомодулей и используемых в них дуплексеров. При масштабных установках — в объёме нескольких тысяч станций — потенциальный эффект от автоматизации настройки оценивается в десятки и сотни тысяч часов автоматизированной ручной работы. Для автоматизации настройки разные исследователи пытались применять методы обучения с подкреплением (reinforcement learning, RL), но такой подход давал результат только на упрощённых моделях. В «Криптоните» переформулировали задачу так, что её теперь можно решить традиционным и более надёжным методом — обучением с учителем (supervised learning, SL). Разработанная нейросеть анализирует частотные кривые дуплексера и предсказывает корректировки регулировочных винтов. Дополнительный алгоритм пошагово применяет предсказания нейросети, что снижает риск ошибочной настройки.

    habr.com/ru/companies/kryptoni

    #reinforcement_learning #supervised_learning #finetuning #5G #автоматизация #дуплексер #диплексер #настройка #базовые_станции

  12. В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ

    Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий искусственного интеллекта. Разработка поможет ускорить и упростить процесс производства оборудования для сетей пятого поколения, что особенно важно для крупных городов, где требуется быстрая и точная настройка тысяч базовых станций. Работа выполнена по предложению входящей в «ИКС Холдинг» компании YADRO, одно из направлений деятельности которой — разработка и производство телекоммуникационного оборудования операторского класса. Базовая станция должна одновременно принимать и передавать сигнал через общую антенну. Для этого применяется частотное разделение каналов, за которое отвечает дуплексер. Точность подбора его параметров напрямую влияет на качество связи. При этом настройка дуплексера — трудоёмкий процесс, требующий несколько часов работы опытного специалиста. Одна базовая станция может содержать более десяти радиомодулей и используемых в них дуплексеров. При масштабных установках — в объёме нескольких тысяч станций — потенциальный эффект от автоматизации настройки оценивается в десятки и сотни тысяч часов автоматизированной ручной работы. Для автоматизации настройки разные исследователи пытались применять методы обучения с подкреплением (reinforcement learning, RL), но такой подход давал результат только на упрощённых моделях. В «Криптоните» переформулировали задачу так, что её теперь можно решить традиционным и более надёжным методом — обучением с учителем (supervised learning, SL). Разработанная нейросеть анализирует частотные кривые дуплексера и предсказывает корректировки регулировочных винтов. Дополнительный алгоритм пошагово применяет предсказания нейросети, что снижает риск ошибочной настройки.

    habr.com/ru/companies/kryptoni

    #reinforcement_learning #supervised_learning #finetuning #5G #автоматизация #дуплексер #диплексер #настройка #базовые_станции

  13. В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ

    Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий искусственного интеллекта. Разработка поможет ускорить и упростить процесс производства оборудования для сетей пятого поколения, что особенно важно для крупных городов, где требуется быстрая и точная настройка тысяч базовых станций. Работа выполнена по предложению входящей в «ИКС Холдинг» компании YADRO, одно из направлений деятельности которой — разработка и производство телекоммуникационного оборудования операторского класса. Базовая станция должна одновременно принимать и передавать сигнал через общую антенну. Для этого применяется частотное разделение каналов, за которое отвечает дуплексер. Точность подбора его параметров напрямую влияет на качество связи. При этом настройка дуплексера — трудоёмкий процесс, требующий несколько часов работы опытного специалиста. Одна базовая станция может содержать более десяти радиомодулей и используемых в них дуплексеров. При масштабных установках — в объёме нескольких тысяч станций — потенциальный эффект от автоматизации настройки оценивается в десятки и сотни тысяч часов автоматизированной ручной работы. Для автоматизации настройки разные исследователи пытались применять методы обучения с подкреплением (reinforcement learning, RL), но такой подход давал результат только на упрощённых моделях. В «Криптоните» переформулировали задачу так, что её теперь можно решить традиционным и более надёжным методом — обучением с учителем (supervised learning, SL). Разработанная нейросеть анализирует частотные кривые дуплексера и предсказывает корректировки регулировочных винтов. Дополнительный алгоритм пошагово применяет предсказания нейросети, что снижает риск ошибочной настройки.

    habr.com/ru/companies/kryptoni

    #reinforcement_learning #supervised_learning #finetuning #5G #автоматизация #дуплексер #диплексер #настройка #базовые_станции

  14. В России разработали метод ускорения настройки базовых станций 5G с помощью ИИ

    Российская компания «Криптонит» (входит в «ИКС Холдинг») разработала метод автоматизации настройки ключевых СВЧ-компонентов базовых станций и ретрансляторов сетей 5G с помощью технологий искусственного интеллекта. Разработка поможет ускорить и упростить процесс производства оборудования для сетей пятого поколения, что особенно важно для крупных городов, где требуется быстрая и точная настройка тысяч базовых станций. Работа выполнена по предложению входящей в «ИКС Холдинг» компании YADRO, одно из направлений деятельности которой — разработка и производство телекоммуникационного оборудования операторского класса. Базовая станция должна одновременно принимать и передавать сигнал через общую антенну. Для этого применяется частотное разделение каналов, за которое отвечает дуплексер. Точность подбора его параметров напрямую влияет на качество связи. При этом настройка дуплексера — трудоёмкий процесс, требующий несколько часов работы опытного специалиста. Одна базовая станция может содержать более десяти радиомодулей и используемых в них дуплексеров. При масштабных установках — в объёме нескольких тысяч станций — потенциальный эффект от автоматизации настройки оценивается в десятки и сотни тысяч часов автоматизированной ручной работы. Для автоматизации настройки разные исследователи пытались применять методы обучения с подкреплением (reinforcement learning, RL), но такой подход давал результат только на упрощённых моделях. В «Криптоните» переформулировали задачу так, что её теперь можно решить традиционным и более надёжным методом — обучением с учителем (supervised learning, SL). Разработанная нейросеть анализирует частотные кривые дуплексера и предсказывает корректировки регулировочных винтов. Дополнительный алгоритм пошагово применяет предсказания нейросети, что снижает риск ошибочной настройки.

    habr.com/ru/companies/kryptoni

    #reinforcement_learning #supervised_learning #finetuning #5G #автоматизация #дуплексер #диплексер #настройка #базовые_станции

  15. RL (RLM): Разбираемся вместе

    Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

    habr.com/ru/articles/958062/

    #Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi

  16. RL (RLM): Разбираемся вместе

    Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

    habr.com/ru/articles/958062/

    #Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi

  17. RL (RLM): Разбираемся вместе

    Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

    habr.com/ru/articles/958062/

    #Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi

  18. RL (RLM): Разбираемся вместе

    Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

    habr.com/ru/articles/958062/

    #Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi

  19. Intro RL

    Для меня разобраться в базовых концепциях Reinforcement Learning оказалось не так просто, особенно сложными оказались функции Беллмана. Эта статья — моя попытка систематизировать материал и объяснить себе (и, возможно, другим), что, откуда и почему берется. Будет здорово, если она поможет кому-то разложить все по полочкам.

    habr.com/ru/articles/919556/

    #reinforcement_learning #обучение_с_подкреплением

  20. Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

    IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.

    habr.com/ru/companies/k2tech/a

    #iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением

  21. Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

    IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.

    habr.com/ru/companies/k2tech/a

    #iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением

  22. Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

    IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.

    habr.com/ru/companies/k2tech/a

    #iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением

  23. Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

    IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.

    habr.com/ru/companies/k2tech/a

    #iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением

  24. Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

    Привет, Хабр! Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning .

    habr.com/ru/articles/935368/

    #llm #rl #nlp #машинное_обучение #ml #reinforcement_learning

  25. Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

    Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз это была архитектура CTM, вдохновлённая внутренней динамикой человеческого мышления. Теперь — метод, который помогает языковым моделям мыслить точнее уже на этапе выполнения запроса. В работе представлены два подхода: AB‑MCTS и его расширение Multi‑LLM AB‑MCTS. Первый объединяет два принципа — уточнение уже готовых ответов и генерацию альтернативных, второй добавляет работу нескольких языковых моделей. Всё это чтобы научить модели «думать» одновременно глубже и шире.

    habr.com/ru/companies/redmadro

    #ai #llm #monte_carlo_tree_search #abmcts #inference #reasoning #thompson_sampling #reinforcement_learning

  26. От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

    Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей AI из передовых международных университетов и технологических компаний. Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.

    habr.com/ru/companies/redmadro

    #ai #machine_learning #deep_learning #large_language_models #multiagent_systems #reinforcement_learning #prompt_engineering #rag #alignment #jailbreak

  27. LiberalMind 1.5- LLM на уровне Gemini 2.5, созданная в России

    Сама идея возникла еще год назад.Хотелось создать LLM, которая будет больше всего приближена к AGI.В октябре 2024 было разработано и продумано несколько систем претрейна моделей,а также их дообучение и reinforcement learning системы.Также была разработана новая система декодера на основе декодировщика ROPE.Но к сожалению ресурсов на внедрение таких технологий хватало лишь на модели до 20M параметров,что означало и маленький набор данных для обучения,поэтому смысла в этом ине было. В апреле был разработан опенсорс агент на основе гемини,который с помощью технологии нескольких вариантов ответа и их анализа был по качеству намного лучше grmini 2.5 pro, хотя агент был разработан на основе gemini 2.0.Агент был назван LiberalMind 1.0

    habr.com/ru/articles/930352/

    #ai #ml #llmмодели #llm #машинное_обучение #искусственный_интеллект #loraадаптеры #finetuning #reinforcement_learning #языковые_модели

  28. ИИ простыми словами, часть 2. Reinforcement Learning (RL)

    Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их. Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы когда я пишу статьи, я сразу мог бы дать ссылку на понятное и простое объяснение сложных терминов. А ещё в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно. Так я начал свой хобби‑проект « AI человеческим языком ». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда. В последнее время мы видим огромный прогресс в обучении ИИ без участия человека. Это важно, потому что люди - бутылочное горлышко, подготовка и разметка данных вручную человеком - крайне дорогостоящий и длительный процесс. Революция, которую произвел DeepSeek R1 - это как раз следствие найденного способа обучать ИИ без ручного труда. Вчера я рассказывал о том, как китайские ученые автоматизировали процесс обучения ИИ программированию при помощи другого ИИ, который пишет тесты . А сегодня я хочу подробнее описать, в чем суть Reinforcement learning - термина, который используется почти во всех статьях про обучение ИИ.

    habr.com/ru/articles/880180/

    #искусственный_интеллект #reinforcement_learning #ии #deepseek

  29. ИИ на путях: как решить задачу перепланирования расписания движения поездов

    Привет, Хабр. Я Артур Саакян, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы разрабатываем уникальные цифровые продукты для железнодорожных перевозок, такие как оптимизация ЖД перевозок, навигатор, ЖД карты, цифровой вагон и так далее. В этой статье опишу подход к оптимизации расписания поездов в реальном времени при помощи обучения с подкреплением (RL), который применим и к российским грузовым ж/д перевозкам, но пока не используется. Тезисы статьи: 1. Перепланирование расписания движения поездов (Train Timetable Rescheduling) 2. Коротко об RL и Q-learning 3. Моделирование железнодорожной среды 4. Заключение

    habr.com/ru/companies/pgk/arti

    #жд #artificial_intelligence #machine_learning #reinforcement_learning #искусственный_интеллект #машинное_обучение #обучение_с_подкреплением #ии

  30. Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

    Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!

    habr.com/ru/articles/872514/

    #The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением

  31. Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

    Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!

    habr.com/ru/articles/872514/

    #The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением

  32. Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

    Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!

    habr.com/ru/articles/872514/

    #The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением

  33. Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

    Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!

    habr.com/ru/articles/872514/

    #The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением

  34. ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

    Главная задача рекомендательной системы — предоставить пользователю контент, фильм, трек, книгу, товар или информацию, которые могут заинтересовать его в данный момент. Сложность в том, что у нас нет явного запроса пользователя, как в поиске, есть только история его взаимодействий с объектами и наша надежда на то, что мы верно распознали его скрытые желания. Раньше для такой задачи нужно было строить сложные алгоритмы со множеством написанных вручную эвристик. Теперь с этим помогают ML‑технологии. Меня зовут Кирилл Хрыльченко, я руковожу командой R&D рекомендательных технологий в Яндексе. Наша команда исследует и разрабатывает новые технологии, а также активно следит за тем, что появляется нового в индустрии. Сегодня я поделюсь трендами развития рекомендательных систем и расскажу, как нейросети продолжают улучшать качество рекомендаций: какие есть нюансы в работе с LLM, чем полезно обучение с подкреплением, что изменилось в плане анализа истории пользователя, а также на что обратить внимание при масштабировании.

    habr.com/ru/companies/yandex/a

    #recsys #машинное_обучение #нейросети #рекомендательные_системы #llm #ранжирование #графы #reinforcement_learning

  35. OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения

    OpenAI изменили направление развития своих языковых моделей, от просто генерации текста их последняя модель перешла к решению задач с использованием логики и пошагового анализа проблемы. До сих пор LLM генерировали текст на основе данных, использованных в процессе обучения. Веса модели хранят представление о зависимостях между текстовыми токенами, полученное из исходного корпуса данных. Соответственно, модель просто генерирует наиболее вероятные токены "по памяти", но не выполняет с их помощью никакой по-настоящему интеллектуальной работы.

    habr.com/ru/articles/847354/

    #MLOps #машинное_обучение #нейронные_сети #reinforcement_learning #NLP #большие_языковые_модели #квантизация #data_engineering #llama #llm

  36. OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения

    OpenAI изменили направление развития своих языковых моделей, от просто генерации текста их последняя модель перешла к решению задач с использованием логики и пошагового анализа проблемы. До сих пор LLM генерировали текст на основе данных, использованных в процессе обучения. Веса модели хранят представление о зависимостях между текстовыми токенами, полученное из исходного корпуса данных. Соответственно, модель просто генерирует наиболее вероятные токены "по памяти", но не выполняет с их помощью никакой по-настоящему интеллектуальной работы.

    habr.com/ru/articles/847354/

    #MLOps #машинное_обучение #нейронные_сети #reinforcement_learning #NLP #большие_языковые_модели #квантизация #data_engineering #llama #llm

  37. OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения

    OpenAI изменили направление развития своих языковых моделей, от просто генерации текста их последняя модель перешла к решению задач с использованием логики и пошагового анализа проблемы. До сих пор LLM генерировали текст на основе данных, использованных в процессе обучения. Веса модели хранят представление о зависимостях между текстовыми токенами, полученное из исходного корпуса данных. Соответственно, модель просто генерирует наиболее вероятные токены "по памяти", но не выполняет с их помощью никакой по-настоящему интеллектуальной работы.

    habr.com/ru/articles/847354/

    #MLOps #машинное_обучение #нейронные_сети #reinforcement_learning #NLP #большие_языковые_модели #квантизация #data_engineering #llama #llm

  38. Reinforcement Learning в задаче групповой оптимизации цен

    Привет, Хабр! Ранее мы рассмотрели вопрос применения подходов Reinforcement Learning в ценообразовании в разрезе одного товара. В этой статье покажем, как можно применить RL при наличии ограничений на группу товаров при помощи оптимизации с ограничениями.

    habr.com/ru/companies/X5Tech/a

    #математика #машинное_обучение #reinforcement_learning #pyomo #многорукий_бандит