[WIP] Support llama2 with transformers==4.38.0 (#11024)

* support llama2 with transformers==4.38.0 * add supprot for quantize_qkv * add original support for 4.38.0 now * code style fix
intel-analytics · May 15, 2024 · 9942a4b · 9942a4b
1 parent 686f603
commit 9942a4b
Show file tree

Hide file tree

Showing 3 changed files with 123 additions and 64 deletions.
diff --git a/python/llm/src/ipex_llm/transformers/convert.py b/python/llm/src/ipex_llm/transformers/convert.py
@@ -961,16 +961,24 @@ def _optimize_post(model, lightweight_bmm=False):
                         llama_decoder_forward)
         if version.parse(trans_version) >= version.parse("4.36.0"):
             # transformers version >= 4.36.0
-            from ipex_llm.transformers.models.llama import llama_attention_forward_4_36
+            from ipex_llm.transformers.models.llama import llama_attention_forward_4_38
             from ipex_llm.transformers.models.llama import llama_model_forward_4_36
-            convert_forward(
-                model,
-                transformers.models.llama.modeling_llama.LlamaAttention,
-                llama_attention_forward_4_36, )
-            convert_forward(
-                model,
-                transformers.models.llama.modeling_llama.LlamaModel,
-                llama_model_forward_4_36)
+            if version.parse(trans_version) >= version.parse("4.38.0"):
+                from ipex_llm.transformers.models.llama import llama_attention_forward_4_38_original
+                # Todo: support llama_model_forward with transformers version >= 4.38.0
+                convert_forward(
+                    model,
+                    transformers.models.llama.modeling_llama.LlamaAttention,
+                    llama_attention_forward_4_38_original)
+            else:
+                convert_forward(
+                    model,
+                    transformers.models.llama.modeling_llama.LlamaModel,
+                    llama_model_forward_4_36)
+                convert_forward(
+                    model,
+                    transformers.models.llama.modeling_llama.LlamaAttention,
+                    llama_attention_forward_4_38)
         else:
             # transformers version between 4.31.0 - 4.35.2
             convert_forward(