huggingface · jp1924 · Dec 16, 2024 · Dec 16, 2024
diff --git a/src/transformers/configuration_utils.py b/src/transformers/configuration_utils.py
@@ -36,6 +36,7 @@
     copy_func,
     download_url,
     extract_commit_hash,
+    is_flash_attn_greater_or_equal_2_10,
     is_remote_url,
     is_timm_config_dict,
     is_torch_available,
@@ -304,6 +305,8 @@ def __init__(self, **kwargs):
         self._attn_implementation_internal = kwargs.pop("attn_implementation", None)
         self._attn_implementation_autoset = False
 
+        self._flash_attn_uses_top_left_mask = not is_flash_attn_greater_or_equal_2_10()
+
         # Drop the transformers version info
         self.transformers_version = kwargs.pop("transformers_version", None)
 

diff --git a/src/transformers/models/gemma2/modeling_gemma2.py b/src/transformers/models/gemma2/modeling_gemma2.py
@@ -199,7 +199,7 @@ def eager_attention_forward(
 
 
 def flash_attention_forward(
-    config: Gemma2Config,
+    self: 'Gemma2Attention',
     query: torch.Tensor,
     key: torch.Tensor,
     value: torch.Tensor,
@@ -218,26 +218,27 @@ def flash_attention_forward(
     key_states = key.transpose(1, 2)
     value_states = value.transpose(1, 2)
 
-    dropout_rate = config.attention_dropout if config.training else 0.0
+    dropout_rate = self.config.attention_dropout if self.training else 0.0
 
     input_dtype = query_states.dtype
     if input_dtype == torch.float32:
         query_states = query_states.to(target_dtype)
         key_states = key_states.to(target_dtype)
         value_states = value_states.to(target_dtype)
 
+
     attn_output = _flash_attention_forward(
         query_states,
         key_states,
         value_states,
         mask,
         seq_len,
         dropout=dropout_rate,
-        softmax_scale=config.scaling,
-        is_causal=config.is_causal,
-        sliding_window=config.sliding_window,
-        use_top_left_mask=config._flash_attn_uses_top_left_mask,
-        softcap=config.attn_logit_softcapping if is_flash_attn_greater_or_equal("2.6.0") else None,
+        softmax_scale=self.scaling,
+        is_causal=self.is_causal,
+        sliding_window=self.config.sliding_window,
+        use_top_left_mask=self.config._flash_attn_uses_top_left_mask,
+        softcap=self.config.attn_logit_softcapping if is_flash_attn_greater_or_equal("2.6.0") else None,
     )
 
     return attn_output, None