home.social

#actorcritic — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #actorcritic, aggregated by home.social.

  1. Продвинутые RL алгоритмы: Normal Policy, TRPO, PPO

    Большой конспект по продвинутым RL алгоритмам: TRPO и PPO. Автор слегка упоролся в формулах, но это из любви к прозрачности алгоритмов.

    habr.com/ru/articles/991622/

    #Policy_gradient_methods #ActorCritic #reinforcementlearning #ppo #trpo

  2. Reinforcement Learning: Policy gradient methods

    В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ノ◕ヮ◕)ノ

    habr.com/ru/articles/979394/

    #Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage