#reinforcement_learning — Public Fediverse posts on home.social

Habr @[email protected] · 2026-01-27 · 09:02 UTC

Kimi K2.5: Как научить нейросеть не бояться параллельности

Moonshot AI выкатили K2.5. Пресс-релиз трубит про «самую мощную open-source модель», но я бы хотел поговорить о другом — о том, что они сделали с агентами. Начну с конца. Там есть график, который стоит тысячи слов. Ось X — сложность задачи. Ось Y — время выполнения. Две линии: одиночный агент и рой агентов. Одиночный агент карабкается вверх линейно. Рой держится почти горизонтально. На сложных задачах разрыв — в четыре с половиной раза. Параллельные агенты обсуждают давно, но тут впервые показали, как этому научить модель, а не прописывать логику декомпозиции вручную. Также, выдали доступ к этим агентам по ценам, похожим на ChatGPT — настоящий рой агентов, выданный в одни руки, за сравнимую стоимость — фантастика. Интересно. Читать далее

https://habr.com/ru/companies/bar/articles/989426/

#машинное_обучение #reinforcement_learning #LLM #мультиагентные_системы #нейросети #искусственный_интеллект #deep_learning #open_source #параллельные_вычисления #Moonshot_AI

#moonshot_ai #параллельные_вычисления #open_source #deep_learning #искусственный_интеллект #нейросети

:rss: Hacker News @[email protected] · 2026-01-12 · 14:15 UTC

Reproducing DeepSeek's MHC: When Residual Connections Explode
https://taylorkolasinski.com/notes/mhc-reproduction/
#ycombinator #Taylor_Kolasinski #ML_systems #machine_learning #reinforcement_learning #robotics #Brooklyn #software_engineer

#ycombinator #taylor_kolasinski #ml_systems #machine_learning #reinforcement_learning #robotics

Habr @[email protected] · 2025-12-23 · 02:32 UTC

Reinforcement Learning: Policy gradient methods

В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ﾉ◕ヮ◕)ﾉ

https://habr.com/ru/articles/979394/

#Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage

#advantage #rl #reinforcement_learning #actorcritic #policy_gradient_methods

Habr @[email protected] · 2025-10-19 · 20:42 UTC

RL (RLM): Разбираемся вместе

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

https://habr.com/ru/articles/958062/

#Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi

#proxi #ppo #reinforcement_learning #rl #большие_языковые_модели #llm

Habr @[email protected] · 2025-09-25 · 14:02 UTC

Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.

https://habr.com/ru/companies/k2tech/articles/950230/

#iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением

#iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение

Habr @[email protected] · 2025-07-24 · 21:52 UTC

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей AI из передовых международных университетов и технологических компаний. Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.

https://habr.com/ru/companies/redmadrobot/articles/930916/

#ai #machine_learning #deep_learning #large_language_models #multiagent_systems #reinforcement_learning #prompt_engineering #rag #alignment #jailbreak

#ai #machine_learning #deep_learning #large_language_models #multiagent_systems #reinforcement_learning

Habr @[email protected] · 2025-01-15 · 16:32 UTC

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!

https://habr.com/ru/articles/872514/

#The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением

#the_mujoco_men #reinforcement_learning #machine_learning #машинное_обучение #jax #mujoco

:rss: Hacker News @[email protected] · 2024-12-01 · 12:41 UTC

ChatGPT Learned to Reason [video]
https://www.youtube.com/watch?v=PvDaPeQjxOE
#ycombinator #AI_reasoning #ChatGPT_explained #artificial_intelligence #neural_networks #Monte_Carlo_Tree_Search #DeepMind #AlphaGo #chess_AI #language_models #machine_learning #reinforcement_learning #deep_learning #AI_history #GPT_training #chain_of_thought #AI_breakthrough #game_AI #TD_Gammon #MuZero #Claude_AI #O1_AI #AI_algorithms #AI_development #computer_reasoning #AI_evolution #future_AI

#ycombinator #ai_reasoning #chatgpt_explained #artificial_intelligence #neural_networks #monte_carlo_tree_search

Habr @[email protected] · 2024-07-08 · 11:22 UTC

Reinforcement Learning в задаче групповой оптимизации цен

Привет, Хабр! Ранее мы рассмотрели вопрос применения подходов Reinforcement Learning в ценообразовании в разрезе одного товара. В этой статье покажем, как можно применить RL при наличии ограничений на группу товаров при помощи оптимизации с ограничениями.

https://habr.com/ru/companies/X5Tech/articles/826400/

#математика #машинное_обучение #reinforcement_learning #pyomo #многорукий_бандит