#actorcritic — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #actorcritic, aggregated by home.social.
-
Продвинутые RL алгоритмы: Normal Policy, TRPO, PPO
Большой конспект по продвинутым RL алгоритмам: TRPO и PPO. Автор слегка упоролся в формулах, но это из любви к прозрачности алгоритмов.
https://habr.com/ru/articles/991622/
#Policy_gradient_methods #ActorCritic #reinforcementlearning #ppo #trpo
-
Reinforcement Learning: Policy gradient methods
В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ノ◕ヮ◕)ノ
https://habr.com/ru/articles/979394/
#Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage