dvc.yaml

stages:
  csv-cif-no-spin-500-data:
    foreach: 
      - WSe2
      - MoS2
    do:
      cmd: echo "Generate ${item}_500 dataset in csv+cif format from VASP output..." && python scripts/vasp_to_csv_cif.py --input-vasp "datasets/raw_vasp/high_density_defects/${item}_500"
        --input-structures-list "datasets/POSCARs/${item}" --POSCARs-in-input-list
        --output-csv-cif "${paths.datasets_root}datasets/csv_cif/high_density_defects/${item}_500"
        --pristine-folder datasets/others/pristine_high_density
      deps:
        - datasets/POSCARs/${item}
        - datasets/others/pristine_high_density
        - datasets/raw_vasp/high_density_defects/${item}_500
        - scripts/vasp_to_csv_cif.py
      outs:
        - ${paths.datasets_root}datasets/csv_cif/high_density_defects/${item}_500
  csv-cif-spin-500-data:
    foreach: 
      - BP
      - GaSe
      - hBN
      - InSe
    do:
      cmd: echo "Generate ${item}_500 dataset in csv+cif format from VASP output..." && python scripts/vasp_to_csv_cif.py --input-vasp "datasets/raw_vasp/high_density_defects/${item}_spin_500"
        --input-structures-list "datasets/POSCARs/${item}" --POSCARs-in-input-list
        --output-csv-cif "${paths.datasets_root}datasets/csv_cif/high_density_defects/${item}_spin_500"
        --pristine-folder datasets/others/pristine_high_density --separate-spins
      deps:
        - datasets/POSCARs/${item}
        - datasets/others/pristine_high_density
        - datasets/raw_vasp/high_density_defects/${item}_spin_500
        - scripts/vasp_to_csv_cif.py
      outs:
        - ${paths.datasets_root}datasets/csv_cif/high_density_defects/${item}_spin_500
  csv-cif-vacancy-pairs-no-spin:
    foreach:
      - GaSe
      - InSe
      - hBN
    do:
      cmd: echo "Generate ${item}_500 dataset in csv+cif format from VASP output..." && python scripts/vasp_to_csv_cif.py --input-vasp datasets/raw_vasp/vacancy_pairs/${item}
        --input-structures-list "datasets/POSCARs/vacancy_pairs/${item}" --POSCARs-in-input-list
        --output-csv-cif "${paths.datasets_root}datasets/csv_cif/vacancy_pairs/${item}"
        --pristine-folder datasets/others/pristine_high_density
      deps:
        - datasets/POSCARs/vacancy_pairs/${item}
        - datasets/others/pristine_high_density
        - datasets/raw_vasp/vacancy_pairs/${item}
        - scripts/vasp_to_csv_cif.py
      outs:
        - ${paths.datasets_root}datasets/csv_cif/vacancy_pairs/${item}
  csv-cif-spin-500-data-occu-tol-investigation:
    foreach:
      - material: BP
        occu_tol: 1e-8
      - material: GaSe
        occu_tol: 1e-8
      - material: hBN
        occu_tol: 1e-8
      - material: InSe
        occu_tol: 1e-8
      - material: BP
        occu_tol: 0.05
      - material: GaSe
        occu_tol: 0.05
      - material: hBN
        occu_tol: 0.05
      - material: InSe
        occu_tol: 0.05
      - material: BP
        occu_tol: 0.1
      - material: GaSe
        occu_tol: 0.1
      - material: hBN
        occu_tol: 0.1
      - material: InSe
        occu_tol: 0.1
    do:
      cmd: echo "Generate ${item}_500 dataset in csv+cif format from VASP output..." && python scripts/vasp_to_csv_cif.py --input-vasp "datasets/raw_vasp/high_density_defects/${item.material}_spin_500"
        --input-structures "datasets/POSCARs/${item.material}" --output-csv-cif "${paths.datasets_root}datasets/csv_cif/high_density_defects/${item.material}_spin_500_occu_tol_${item.occu_tol}"
        --pristine-folder datasets/others/pristine_high_density --separate-spins --band-occupancy-tolerence ${item.occu_tol}
      deps:
        - datasets/POSCARs/${item.material}
        - datasets/others/pristine_high_density
        - datasets/raw_vasp/high_density_defects/${item.material}_spin_500
        - scripts/vasp_to_csv_cif.py
      outs:
        - ${paths.datasets_root}datasets/csv_cif/high_density_defects/${item.material}_spin_500_occu_tol_${item.occu_tol}
  csv-cif-low-density-8x8-Innopolis-v1:
    foreach:
      - WSe2
      - MoS2
    do:
      cmd: echo "Creating technical files needed to preserve the historical structure indexing for low density defects ${item} dataset..." && python scripts/separate_csv_cif.py --input-folder datasets/csv_cif/dichalcogenides_x1s6_202109
        --output-folder ${paths.datasets_root}datasets/csv_cif/low_density_defects_Innopolis-v1/${item} --base-material ${item}
        --supercell-size 8
      deps:
        - datasets/csv_cif/dichalcogenides_x1s6_202109
        - scripts/separate_csv_cif.py
      outs:
        - datasets/csv_cif/low_density_defects_Innopolis-v1/${item}
  tar-index-low-density-8x8:
    foreach:
      - material: WSe2
        tar_folder: wse2
      - material: MoS2
        tar_folder: mos2
    do:
      cmd:
        ratarmount -o modules=subdir,subdir=${item.tar_folder}_8x8_5933
            datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.tar_folder}_8x8_5933.tar.gz
            datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.material}_8x8_5933/ &&
        sleep 5 &&
        ratarmount -u datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.material}_8x8_5933/
      deps:
        - datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.tar_folder}_8x8_5933.tar.gz
      outs:
        - datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.tar_folder}_8x8_5933.tar.gz.index.sqlite
  csv-cif-low-density-8x8:
    foreach:
      - material: WSe2
        tar_folder: wse2
      - material: MoS2
        tar_folder: mos2
    do:
      cmd:
        echo "Generate low_density_defects/${item.material} dataset in csv+cif format from VASP output..." && ratarmount -o modules=subdir,subdir=${item.tar_folder}_8x8_5933
          datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.tar_folder}_8x8_5933.tar.gz
          ${paths.datasets_root}datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.material}_8x8_5933/ &&
        python scripts/vasp_to_csv_cif.py --input-vasp "${paths.datasets_root}datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.material}_8x8_5933"
        --input-structures-list datasets/csv_cif/low_density_defects_Innopolis-v1/${item.material}
        --input-structures-csv-cif datasets/csv_cif/low_density_defects_Innopolis-v1/${item.material}
        --output-csv-cif "${paths.datasets_root}datasets/csv_cif/low_density_defects/${item.material}"
        --pristine-folder datasets/others/pristine_high_density
        --vasprun-glob-prefix poscar_??- &&
        sleep 5 &&
        ratarmount -u datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.material}_8x8_5933/
      deps:
        - scripts/vasp_to_csv_cif.py
        - datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.tar_folder}_8x8_5933.tar.gz
        - datasets/csv_cif/low_density_defects_Innopolis-v1/${item.material}
        - datasets/others/pristine_high_density
        - datasets/raw_vasp/dichalcogenides8x8_vasp_nus_202110/${item.tar_folder}_8x8_5933.tar.gz.index.sqlite
      outs:
        - ${paths.datasets_root}datasets/csv_cif/low_density_defects/${item.material}
  processed-low-density:
    foreach:
      - WSe2
      - MoS2
    do:
      cmd: echo "Converting the structures from csv+cif format to the platform-specific pickle format for low density ${item} dataset..." && python scripts/parse_csv_cif.py --input-name=low_density_defects/${item} --fill-missing-band-properties --normalize-homo-lumo ${paths.output_folder_arg}
      deps:
        - datasets/csv_cif/low_density_defects/${item}
        - scripts/parse_csv_cif.py
      outs:
        - ${paths.datasets_root}datasets/processed/low_density_defects/${item}/data.pickle.gz
        - ${paths.datasets_root}datasets/processed/low_density_defects/${item}/targets.csv.gz
  processed-high-density:
    foreach: 
      - BP_spin
      - GaSe_spin
      - hBN_spin
      - InSe_spin
      - MoS2
      - WSe2
    do:
      cmd: echo "Converting the structures from csv+cif format to the platform-specific pickle format for high density ${item} dataset..." && python scripts/parse_csv_cif.py --input-name=high_density_defects/${item}_500 --normalize-homo-lumo --fill-missing-band-properties ${paths.output_folder_arg}
      deps:
        - scripts/parse_csv_cif.py
        - datasets/csv_cif/high_density_defects/${item}_500
      outs:
        - ${paths.datasets_root}datasets/processed/high_density_defects/${item}_500/targets.csv.gz
        - ${paths.datasets_root}datasets/processed/high_density_defects/${item}_500/data.pickle.gz
  processed-pilot:
    cmd: python scripts/parse_csv_cif.py --input-name=pilot --fill-missing-band-properties ${paths.output_folder_arg}
    deps:
      - scripts/parse_csv_cif.py
      - datasets/csv_cif/pilot
    outs:
      - ${paths.datasets_root}datasets/processed/pilot/targets.csv.gz
      - ${paths.datasets_root}datasets/processed/pilot/data.pickle.gz
  processed-vacancy-pairs:
    foreach:
      - hBN
      - GaSe
      - InSe
    do:
      cmd: python scripts/parse_csv_cif.py --input-name=vacancy_pairs/${item} --normalize-homo-lumo --fill-missing-band-properties ${paths.output_folder_arg}
      deps:
        - scripts/parse_csv_cif.py
        - datasets/csv_cif/vacancy_pairs/${item}
      outs:
        - ${paths.datasets_root}datasets/processed/vacancy_pairs/${item}/targets.csv.gz
        - ${paths.datasets_root}datasets/processed/vacancy_pairs/${item}/data.pickle.gz
  rolos-2d-materials-point-defects:
    cmd:
      ./scripts/pack_for_rolos.sh
    deps:
      - scripts/pack_for_rolos.sh
      #- datasets/processed/high_density_defects/{BP_spin,GaSe_spin,hBN_spin,InSe_spin,MoS2,WSe2}_500/targets.csv.gz
      #- datasets/csv_cif/high_density_defects/{BP_spin,GaSe_spin,hBN_spin,InSe_spin,MoS2,WSe2}_500
      - datasets/processed/low_density_defects
      - datasets/csv_cif/low_density_defects
    outs:
      - datasets/others/rolos/2d-materials-point-defects
  matminer:
    foreach:
      - high_density_defects/BP_spin_500
      - high_density_defects/GaSe_spin_500
      - high_density_defects/hBN_spin_500
      - high_density_defects/InSe_spin_500
      - high_density_defects/MoS2_500
      - high_density_defects/WSe2_500
      - low_density_defects/MoS2
      - low_density_defects/WSe2
      - vacancy_pairs/hBN
      - vacancy_pairs/GaSe
      - vacancy_pairs/InSe
      - pilot
    do:
      cmd: echo "Creating matminer descriptors for ${item}, to be used with CatBoost" && python scripts/compute_matminer_features.py --input-name ${item} --n-proc=${matminer_cpus} ${paths.output_folder_arg}
      deps:
        - datasets/csv_cif/${item}
        - scripts/compute_matminer_features.py
      outs:
        - ${paths.datasets_root}datasets/processed/${item}/matminer.csv.gz
  matminer-debug:
    cmd: python scripts/compute_matminer_features.py --input-name pilot --n-proc=2 --debug ${paths.output_folder_arg}
    deps:
      - datasets/csv_cif/pilot
      - scripts/compute_matminer_features.py
    outs:
      - ${paths.datasets_root}datasets/processed/pilot/matminer_dbg.csv.gz
  MoS2-2Mo-structures:
    foreach:
      - 1_V_1W_Mo
      - 2V_Mo
      - 2W_Mo
    do:
      # No clean output as the UUIDs will be regenerated
      cmd: python scripts/defects_generation.py --output-path datasets/POSCARs/MoS2-2Mo/${item}
           --config-path datasets/generation_configs/MoS2-2Mo/${item}.yaml
      deps:
        - datasets/generation_configs/MoS2-2Mo/${item}.yaml
        - defects_generation/molecules/MoS2.cif
        - scripts/defects_generation.py
      outs:
        - datasets/POSCARs/MoS2-2Mo/${item}
  vacancy-pairs-configs:
    foreach:
      - GaSe
      - InSe
      - MoS2
      - P
    do:
      # No clean output as the UUIDs will be regenerated
      cmd: python scripts/defects_generation.py --output-path datasets/POSCARs/vacancy_pairs/${item}
           --config-path datasets/generation_configs/vacancy_pairs/${item}.yaml
      deps:
        - datasets/generation_configs/vacancy_pairs/${item}.yaml
        - defects_generation/molecules/${item}.cif
        - scripts/defects_generation.py
      outs:
        - datasets/POSCARs/vacancy_pairs/${item}
  vacancy-pairs-configs-hBN:
    cmd: python scripts/defects_generation.py --output-path datasets/POSCARs/vacancy_pairs/hBN
           --config-path datasets/generation_configs/vacancy_pairs/hBN.yaml
    deps:
      - datasets/generation_configs/vacancy_pairs/hBN.yaml
      - scripts/defects_generation.py
      # And this BN/hBN difference is why we have a separate entity
      - defects_generation/molecules/BN.cif
    outs:
      - datasets/POSCARs/vacancy_pairs/hBN
  vacancy-pairs-experiments:
    foreach:
      - vacancy_pairs
      - vacancy_pairs_GaSe
    do:
      cmd: python scripts/folds_from_config.py --experiment-name ${item}
      deps:
        - scripts/folds_from_config.py
        - datasets/experiments/${item}/config.yaml
      outs:
        - datasets/experiments/${item}/folds.csv.gz
  train-only-split:
    cmd: python scripts/prepare_data_split.py
         --datasets high_density_defects/{BP_spin_500,GaSe_spin_500,hBN_spin_500,InSe_spin_500,MoS2_500,WSe2_500}
         low_density_defects/{MoS2,WSe2} --test-size 0 --experiment-name combined_mixed_all_train --n-folds 2
         --targets homo_lumo_gap_min formation_energy_per_site --strategy train_test
    deps:
      - scripts/prepare_data_split.py
      - datasets/csv_cif/high_density_defects/BP_spin_500
      - datasets/csv_cif/high_density_defects/GaSe_spin_500
      - datasets/csv_cif/high_density_defects/hBN_spin_500
      - datasets/csv_cif/high_density_defects/InSe_spin_500
      - datasets/csv_cif/high_density_defects/MoS2_500
      - datasets/csv_cif/high_density_defects/WSe2_500
      - datasets/csv_cif/low_density_defects/MoS2
      - datasets/csv_cif/low_density_defects/WSe2
    outs:
      - datasets/experiments/combined_mixed_all_train/folds.csv.gz
      - datasets/experiments/combined_mixed_all_train/config.yaml