0°
PyTorch入门实战教程

PyTorch 实现各种 Policy Gradient 算法 (REINFORCE, NPG, TRPO, PPO)

image

这个项目用 PyTorch (v0.4.0) 实现了下列经典的 policy gradient (PG) 算法:

  • Vanilla Policy Gradient
  • Truncated Natural Policy Gradient
  • Trust Region Policy Optimization
  • Proximal Policy Optimization

作者还在下列评测集上实现了 PG 算法和模型的训练:

mujoco-py

AlgorithmScoreGIF
Vanilla PGtrpo
NPGtrpo
TRPOtrpo
PPOppo

Unity ml-agents

EnvGIF
Planeplane
Curvedcurved

Github 仓库地址

仓库地址:https://github.com/reinforcement-learning-kr/pg_travel

PyTorch入门实战教程
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论