examples/imitation_learning/confs.yaml

# Configuration files for imitation learning examples

Atlas:
  algorithm: "VAIL"
  algorithm_config:
    std_0: 1.0
    info_constraint: 0.01
    lr_beta: 0.00001
    z_dim: 128
    disc_only_states: True
    disc_use_next_states: False
    train_disc_n_th_epoch: 3
    disc_batch_size: 2048
    learning_rate_critic: 1.0e-4
    learning_rate_disc: 5.0e-5
    policy_entr_coef: 1.0e-3
    max_kl: 5.0e-3
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"

Talos:
  algorithm: "VAIL"
  algorithm_config:
    std_0: 1.0
    info_constraint: 0.1
    lr_beta: 0.00001
    z_dim: 128
    disc_only_states: True
    disc_use_next_states: False
    train_disc_n_th_epoch: 3
    disc_batch_size: 2048
    learning_rate_critic: 1.0e-4
    learning_rate_disc: 5.0e-5
    policy_entr_coef: 1.0e-3
    max_kl: 5.0e-3
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"

HumanoidTorque:
  algorithm: "VAIL"
  algorithm_config:
    std_0: 0.5
    info_constraint: 0.1
    lr_beta: 0.00001
    z_dim: 128
    disc_only_states: True
    disc_use_next_states: False
    train_disc_n_th_epoch: 3
    disc_batch_size: 2048
    learning_rate_critic: 1.0e-4
    learning_rate_disc: 5.0e-5
    policy_entr_coef: 1.0e-3
    max_kl: 5.0e-3
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"

HumanoidTorque4Ages:
  algorithm: "VAIL"
  algorithm_config:
    std_0: 0.5
    info_constraint: 0.1
    lr_beta: 0.00001
    z_dim: 128
    disc_only_states: True
    disc_use_next_states: False
    train_disc_n_th_epoch: 3
    disc_batch_size: 2048
    learning_rate_critic: 1.0e-4
    learning_rate_disc: 5.0e-5
    policy_entr_coef: 1.0e-3
    max_kl: 5.0e-3
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"

HumanoidMuscle:
  algorithm: "GAIL"
  algorithm_config:
    std_0: 0.8
    disc_only_states: True
    disc_use_next_states: False
    train_disc_n_th_epoch: 3
    disc_batch_size: 2048
    learning_rate_critic: 5.0e-5
    learning_rate_disc: 5.0e-6
    policy_entr_coef: 1.0e-3
    d_entr_coef: 1.0e-3
    max_kl: 1.0e-2
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"

HumanoidMuscle4Ages:
  algorithm: "GAIL"
  algorithm_config:
    std_0: 0.8
    disc_only_states: True
    disc_use_next_states: False
    train_disc_n_th_epoch: 3
    disc_batch_size: 2048
    learning_rate_critic: 5.0e-5
    learning_rate_disc: 5.0e-6
    policy_entr_coef: 1.0e-3
    d_entr_coef: 1.0e-3
    max_kl: 1.0e-2
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"

UnitreeH1:
  algorithm: "VAIL"
  algorithm_config:
    std_0: 0.5
    info_constraint: 0.1
    lr_beta: 0.00001
    z_dim: 128
    disc_only_states: True
    disc_use_next_states: False
    train_disc_n_th_epoch: 3
    disc_batch_size: 2048
    learning_rate_critic: 1.0e-4
    learning_rate_disc: 5.0e-5
    policy_entr_coef: 1.0e-3
    max_kl: 5.0e-3
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"

UnitreeG1:
  algorithm: "VAIL"
  algorithm_config:
    std_0: 0.5
    info_constraint: 0.1
    lr_beta: 0.00001
    z_dim: 128
    disc_only_states: True
    disc_use_next_states: False
    train_disc_n_th_epoch: 3
    disc_batch_size: 2048
    learning_rate_critic: 1.0e-4
    learning_rate_disc: 5.0e-5
    policy_entr_coef: 1.0e-3
    max_kl: 5.0e-3
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"

UnitreeA1.simple:
  algorithm: "VAIL"
  algorithm_config:
    std_0: 1.0
    info_constraint: 1.0
    lr_beta: 0.00001
    z_dim: 128
    disc_only_states: True
    disc_use_next_states: True
    train_disc_n_th_epoch: 6
    disc_batch_size: 2048
    learning_rate_critic: 1.0e-4
    learning_rate_disc: 5.0e-5
    policy_entr_coef: 1.0e-3
    max_kl: 5.0e-3
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"

UnitreeA1.hard:
  algorithm: "VAIL"
  algorithm_config:
    std_0: 1.0
    info_constraint: 0.1
    lr_beta: 0.00001
    z_dim: 128
    disc_only_states: True
    disc_use_next_states: True
    train_disc_n_th_epoch: 3
    disc_batch_size: 2048
    learning_rate_critic: 1.0e-4
    learning_rate_disc: 5.0e-5
    policy_entr_coef: 1.0e-3
    max_kl: 5.0e-3
    n_epochs_cg: 25
    use_noisy_targets: False
    last_policy_activation: "identity"