Offline-Reinforcement-Learning

Environment or Dataset

D4RL: Datasets for Deep Data-Driven Reinforcement Learning, J Fu, et al., arxiv

Review or Tutorial

Offline reinforcement learning: Tutorial, review, and perspectives on open problems, S Levine, et al., arxiv

Model-free

Batch Policy Learning under Constraints, HM Le, et al., arxiv

Off-Policy Deep Reinforcement Learning without Exploration, S Fujimoto, et al., ICML 19

Behavior Regularized Offline Reinforcement Learning, Y Wu, et al., arxiv

Conservative Q-Learning for Offline Reinforcement Learning, A Kumar, et al., NeuraIPS 20

BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning, X Chen, et al., NeuraIPS 20

Critic Regularized Regression, Z Wang, et al., NeuraIPS 20

Model-based

MOPO: Model-based Offline Policy Optimization, T Yu, et al., NeurIPS 20

MOReL: Model-Based Offline Reinforcement Learning, R Kidambi, et al., arxiv

Off-policy Policy Evaluation (OPE)

Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding, H Namkoong, et al., arxiv