#actorcritic — Public Fediverse posts on home.social

В предыдущих статьях Intro Reinforcement Learning и Reinforcement Learning: Model-free & Deep RL были рассмотрены подходы, в которых оптимальные действия находились косвенно через оценку полезности состояний или пар «состояние–действие». Такие методы принято называть value-based. Однако возникает вопрос: зачем строить сложные цепочки через value-функции, если можно напрямую обучать агента выбирать правильные действия? Такой policy-based подход интуитивно кажется проще и естественнее. Здесь о том, как это делается (ﾉ◕ヮ◕)ﾉ

https://habr.com/ru/articles/979394/

#Policy_gradient_methods #ActorCritic #Reinforcement_Learning #rl #Advantage

#advantage #rl #reinforcement_learning #actorcritic #policy_gradient_methods

Thomas E. Gladwin @[email protected] · 2025-01-01 · 19:19 UTC

Nice start to 2025 - finally bullied a toy reinforcement learning model I've been using to try stuff out into different behaviours for different parameters.

It only appears in the speed to converge, in the early learning stage. I was expecting to get a more qualitative difference where the model can just fail within certain parameter ranges but no luck there yet.

#actorcritic #AI

#actorcritic #ai

Thomas E. Gladwin @[email protected] · 2025-01-01 · 19:19 UTC

Nice start to 2025 - finally bullied a toy reinforcement learning model I've been using to try stuff out into different behaviours for different parameters.

It only appears in the speed to converge, in the early learning stage. I was expecting to get a more qualitative difference where the model can just fail within certain parameter ranges but no luck there yet.

#actorcritic #AI

#actorcritic #ai