您的位置 首页 PyTorch 项目

PyTorch 实现各种 Policy Gradient 算法 (REINFORCE, NPG, TRPO, PPO)

PyTorch入门实战教程

image

这个项目用 PyTorch (v0.4.0) 实现了下列经典的 policy gradient (PG) 算法:

  • Vanilla Policy Gradient
  • Truncated Natural Policy Gradient
  • Trust Region Policy Optimization
  • Proximal Policy Optimization

作者还在下列评测集上实现了 PG 算法和模型的训练:

mujoco-py

AlgorithmScoreGIF
Vanilla PGtrpo
NPGtrpo
TRPOtrpo
PPOppo

Unity ml-agents

EnvGIF
Planeplane
Curvedcurved

Github 仓库地址

仓库地址:https://github.com/reinforcement-learning-kr/pg_travel

PyTorch入门实战教程

发表评论

电子邮件地址不会被公开。 必填项已用*标注

返回顶部