Dual-clip Proximal Policy Optimization (PPO)

An implementation of a baseline PPO, benchmarked against an extension dual-clip PPO [1] where policy divergences due to negative advantages are also clipped.

References

[1]: Ye Deheng, Liu Zhao, Sun Mingfei, Shi Bei, Zhao Peilin, Wu Hao, Yu Hongsheng, Yang Shaojie, Wu Xipeng, Guo Qingwei, et al. "Mastering complex control in moba games with deep reinforcement learning" Proceedings of the AAAI conference on artificial intelligence, Vol. 34 (2020), pp. 6672-6679 — arXiv

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
algos		algos
cfg		cfg
imgs		imgs
results		results
utils		utils
.gitignore		.gitignore
README.md		README.md
project.ipynb		project.ipynb
sanding.py		sanding.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Dual-clip Proximal Policy Optimization (PPO)

References

About

Contributors 2

Languages

shreeram-murali/dual-clip-ppo

Folders and files

Latest commit

History

Repository files navigation

Dual-clip Proximal Policy Optimization (PPO)

References

About

Topics

Resources

Stars

Watchers

Forks

Contributors 2

Languages