corl-team · vkurenkov · Dec 6, 2023 · Aug 17, 2023 · Aug 17, 2023 · Aug 17, 2023
diff --git a/README.md b/README.md
diff --git a/algorithms/finetune/rebrac.py b/algorithms/finetune/rebrac.py
diff --git a/configs/finetune/rebrac/antmaze/large_diverse_v2.yaml b/configs/finetune/rebrac/antmaze/large_diverse_v2.yaml
@@ -0,0 +1,35 @@
+actor_bc_coef: 0.002
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.002
+critic_learning_rate: 0.00005
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: antmaze-large-diverse-v2
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.999
+group: rebrac-finetune-antmaze-large-diverse-v2
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: true
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
diff --git a/configs/finetune/rebrac/antmaze/large_play_v2.yaml b/configs/finetune/rebrac/antmaze/large_play_v2.yaml
@@ -0,0 +1,35 @@
+actor_bc_coef: 0.002
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.001
+critic_learning_rate: 0.00005
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: antmaze-large-play-v2
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.999
+group: rebrac-finetune-antmaze-large-play-v2
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: true
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
diff --git a/configs/finetune/rebrac/antmaze/medium_diverse_v2.yaml b/configs/finetune/rebrac/antmaze/medium_diverse_v2.yaml
@@ -0,0 +1,35 @@
+actor_bc_coef: 0.001
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.0
+critic_learning_rate: 0.00005
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: antmaze-medium-diverse-v2
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.999
+group: rebrac-finetune-antmaze-medium-diverse-v2
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: true
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
diff --git a/configs/finetune/rebrac/antmaze/medium_play_v2.yaml b/configs/finetune/rebrac/antmaze/medium_play_v2.yaml
@@ -0,0 +1,35 @@
+actor_bc_coef: 0.001
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.0005
+critic_learning_rate: 0.00005
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: antmaze-medium-play-v2
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.999
+group: rebrac-finetune-antmaze-medium-play-v2
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: true
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
diff --git a/configs/finetune/rebrac/antmaze/umaze_diverse_v2.yaml b/configs/finetune/rebrac/antmaze/umaze_diverse_v2.yaml
@@ -0,0 +1,35 @@
+actor_bc_coef: 0.003
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.001
+critic_learning_rate: 0.00005
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: antmaze-umaze-diverse-v2
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.999
+group: rebrac-finetune-antmaze-umaze-diverse-v2
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: true
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
diff --git a/configs/finetune/rebrac/antmaze/umaze_v2.yaml b/configs/finetune/rebrac/antmaze/umaze_v2.yaml
@@ -0,0 +1,36 @@
+actor_bc_coef: 0.003
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.002
+critic_learning_rate: 0.00005
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: antmaze-umaze-v2
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.999
+group: rebrac-finetune-antmaze-umaze-v2
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: true
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
+
diff --git a/configs/finetune/rebrac/door/cloned_v1.yaml b/configs/finetune/rebrac/door/cloned_v1.yaml
@@ -0,0 +1,35 @@
+actor_bc_coef: 0.01
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.1
+critic_learning_rate: 0.0003
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: door-cloned-v1
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.99
+group: rebrac-finetune-door-cloned-v1
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: false
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
diff --git a/configs/finetune/rebrac/hammer/cloned_v1.yaml b/configs/finetune/rebrac/hammer/cloned_v1.yaml
@@ -0,0 +1,35 @@
+actor_bc_coef: 0.1
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.5
+critic_learning_rate: 0.0003
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: hammer-cloned-v1
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.99
+group: rebrac-finetune-hammer-cloned-v1
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: false
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
diff --git a/configs/finetune/rebrac/pen/cloned_v1.yaml b/configs/finetune/rebrac/pen/cloned_v1.yaml
@@ -0,0 +1,35 @@
+actor_bc_coef: 0.05
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.5
+critic_learning_rate: 0.0003
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: pen-cloned-v1
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.99
+group: rebrac-finetune-pen-cloned-v1
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: false
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
diff --git a/configs/finetune/rebrac/relocate/cloned_v1.yaml b/configs/finetune/rebrac/relocate/cloned_v1.yaml
@@ -0,0 +1,35 @@
+actor_bc_coef: 0.1
+actor_learning_rate: 0.0003
+actor_ln: false
+actor_n_hiddens: 3
+batch_size: 256
+critic_bc_coef: 0.01
+critic_learning_rate: 0.0003
+critic_ln: true
+critic_n_hiddens: 3
+dataset_name: relocate-cloned-v1
+eval_episodes: 100
+eval_every: 50000
+eval_seed: 42
+expl_noise: 0.0
+gamma: 0.99
+group: rebrac-finetune-relocate-cloned-v1
+hidden_dim: 256
+min_decay_coef: 0.5
+mixing_ratio: 0.5
+name: rebrac-finetune
+noise_clip: 0.5
+normalize_q: true
+normalize_reward: false
+normalize_states: false
+num_offline_updates: 1000000
+num_online_updates: 1000000
+num_warmup_steps: 0
+policy_freq: 2
+policy_noise: 0.2
+project: CORL
+replay_buffer_size: 2000000
+reset_opts: false
+tau: 0.005
+train_seed: 0
+use_calibration: false
diff --git a/results/bin/finetune_scores.pickle b/results/bin/finetune_scores.pickle
diff --git a/results/get_finetune_scores.py b/results/get_finetune_scores.py
@@ -32,9 +32,14 @@ def get_run_scores(run_id, is_dt=False):
                 break
     for _, row in run.history(keys=[score_key], samples=5000).iterrows():
         full_scores.append(row[score_key])
+
+    for _, row in run.history(keys=["train/regret"], samples=5000).iterrows():
+        if "train/regret" in row:
+            regret = row["train/regret"]
     for _, row in run.history(keys=["eval/regret"], samples=5000).iterrows():
         if "eval/regret" in row:
             regret = row["eval/regret"]
+
     offline_iters = len(full_scores) // 2
     return full_scores[:offline_iters], full_scores[offline_iters:], regret