#reinforcement_learning — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #reinforcement_learning, aggregated by home.social.
-
Kimi K2.5: Как научить нейросеть не бояться параллельности
Moonshot AI выкатили K2.5. Пресс-релиз трубит про «самую мощную open-source модель», но я бы хотел поговорить о другом — о том, что они сделали с агентами. Начну с конца. Там есть график, который стоит тысячи слов. Ось X — сложность задачи. Ось Y — время выполнения. Две линии: одиночный агент и рой агентов. Одиночный агент карабкается вверх линейно. Рой держится почти горизонтально. На сложных задачах разрыв — в четыре с половиной раза. Параллельные агенты обсуждают давно, но тут впервые показали, как этому научить модель, а не прописывать логику декомпозиции вручную. Также, выдали доступ к этим агентам по ценам, похожим на ChatGPT — настоящий рой агентов, выданный в одни руки, за сравнимую стоимость — фантастика. Интересно. Читать далее
https://habr.com/ru/companies/bar/articles/989426/
#машинное_обучение #reinforcement_learning #LLM #мультиагентные_системы #нейросети #искусственный_интеллект #deep_learning #open_source #параллельные_вычисления #Moonshot_AI
-
Reproducing DeepSeek's MHC: When Residual Connections Explode
https://taylorkolasinski.com/notes/mhc-reproduction/
#ycombinator #Taylor_Kolasinski #ML_systems #machine_learning #reinforcement_learning #robotics #Brooklyn #software_engineer -
Reinforcement Learning: Policy gradient methods
В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ノ◕ヮ◕)ノ
https://habr.com/ru/articles/979394/
#Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage
-
RL (RLM): Разбираемся вместе
Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).
https://habr.com/ru/articles/958062/
#Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi
-
Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT
IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым. Меня зовут Максим Князев, старший системный инженер К2 Кибербезопасность , и я натренировал пять ИИ-агентов для управления этим хаосом. Один прогнозирует пики нагрузки, другой распределяет временные слоты, третий управляет мощностью передачи, четвертый распределяет устройства по типам и пятый оптимизирует расход батарей. В итоге количество коллизий упало с 26% до 7%, энергопотребление на 35%, а успешность подключений выросла до 96% по сравнению с использованием статического метода без агентов. Под катом рассказываю, как это работает.
https://habr.com/ru/companies/k2tech/articles/950230/
#iot_security #ииагент #iotустройства #nbiot #reinforcement_learning #машинное_обучение #беспроводные_сети #беспроводные_технологии #интернет_вещей #обучение_с_подкреплением
-
От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения
Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей AI из передовых международных университетов и технологических компаний. Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.
https://habr.com/ru/companies/redmadrobot/articles/930916/
#ai #machine_learning #deep_learning #large_language_models #multiagent_systems #reinforcement_learning #prompt_engineering #rag #alignment #jailbreak
-
Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене
Добрый день, уважаемые хабровчане! Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время. В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении! Готовы? Тогда - вперед! На арену!
https://habr.com/ru/articles/872514/
#The_MuJoCo_Men #reinforcement_learning #machine_learning #машинное_обучение #JAX #MuJoCo #SAC #обучение_с_подкреплением
-
ChatGPT Learned to Reason [video]
https://www.youtube.com/watch?v=PvDaPeQjxOE
#ycombinator #AI_reasoning #ChatGPT_explained #artificial_intelligence #neural_networks #Monte_Carlo_Tree_Search #DeepMind #AlphaGo #chess_AI #language_models #machine_learning #reinforcement_learning #deep_learning #AI_history #GPT_training #chain_of_thought #AI_breakthrough #game_AI #TD_Gammon #MuZero #Claude_AI #O1_AI #AI_algorithms #AI_development #computer_reasoning #AI_evolution #future_AI -
Reinforcement Learning в задаче групповой оптимизации цен
Привет, Хабр! Ранее мы рассмотрели вопрос применения подходов Reinforcement Learning в ценообразовании в разрезе одного товара. В этой статье покажем, как можно применить RL при наличии ограничений на группу товаров при помощи оптимизации с ограничениями.
https://habr.com/ru/companies/X5Tech/articles/826400/
#математика #машинное_обучение #reinforcement_learning #pyomo #многорукий_бандит
-
PhD Researcher @uniinnsbruck
University of Innsbruck
Are you interested in sustainability? Come join us as a #computerscience PhD to research on a bulding's energy efficiency and optimization!
See the full job description on jobRxiv: https://jobrxiv.org/job/university-of-innsbruck-27778-phd-researcher/?feed_id=73093
#building_control #machine_learning #reinforcement_learning #software_engineering #ScienceJ...
https://jobrxiv.org/job/university-of-innsbruck-27778-phd-researcher/?feed_id=73093 -
PhD Researcher @uniinnsbruck
University of Innsbruck
Are you interested in sustainability? Come join us as a #computerscience PhD to research on a bulding's energy efficiency and optimization!
See the full job description on jobRxiv: https://jobrxiv.org/job/university-of-innsbruck-27778-phd-researcher/?feed_id=72407
#building_control #machine_learning #reinforcement_learning #software_eng. #ScienceJobs #hi...
https://jobrxiv.org/job/university-of-innsbruck-27778-phd-researcher/?feed_id=72407