R2D2

RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (n-step Q-learning is not implemented)

conda env create --file environment.yaml

OpenAI Gym environment

python models/lstm_burn_in/run.py

Marlo environment

python models/lstm_burn_in/run_marlo.py

Provide feedback