increase dropout value for gpt 126m

Signed-off-by: dimapihtar <[email protected]>
NVIDIA · Aug 30, 2024 · 884065c · 884065c
1 parent 48f0049
commit 884065c
Showing 1 changed file with 2 additions and 2 deletions.
diff --git a/launcher_scripts/conf/training/gpt3/126m.yaml b/launcher_scripts/conf/training/gpt3/126m.yaml
@@ -68,8 +68,8 @@ model:
   ffn_hidden_size: ${multiply:4, ${.hidden_size}}  # Transformer FFN hidden size. 4 * hidden_size.
   num_attention_heads: 12
   init_method_std: 0.023  # Standard deviation of the zero mean normal distribution used for weight initialization.')
-  hidden_dropout: 0.1  # Dropout probability for hidden state transformer.
-  attention_dropout: 0.1 # Dropout probability for attention
+  hidden_dropout: 0.2  # Dropout probability for hidden state transformer.
+  attention_dropout: 0.2 # Dropout probability for attention
   kv_channels: null  # Projection weights dimension in multi-head attention. Set to hidden_size // num_attention_heads if null
   apply_query_key_layer_scaling: True # scale Q * K^T by 1 / layer-number.
   layernorm_epsilon: 1e-5