Add Deepseek MoE v1 & GigaChat models #10827

Inf1delis · 2024-12-14T13:18:56Z

I have read the contributing guidelines

Self-reported review complexity:

Medium

The PR adds support for DeepSeek MoE v1 models (Base and Instruct) & support new GigaChat models (Base and Instruct). Since GigaChat is based on the Deepseek MoE v1 architecture, the changes for that model is limited to the tokenizer.

… of func

…deepseek arch need

Inf1delis · 2024-12-15T07:06:37Z

@ggerganov Hi! I think this PR is ready, could you check it up?

ggerganov

Minor suggestions to fix the location of the new DS code to be located before DS2

ggerganov · 2024-12-15T11:03:09Z

convert_hf_to_gguf.py

@@ -3506,6 +3509,97 @@ def prepare_tensors(self):
                raise ValueError(f"Unprocessed experts: {experts}")


+@Model.register("DeepseekForCausalLM")
+class DeepseekModel(Model):


Move before DeepseekV2Model above

ggerganov · 2024-12-15T11:03:34Z

src/llama.cpp

+                        }
+                    }
+                } break;
+            case LLM_ARCH_DEEPSEEK:


Move before case LLM_ARCH_DEEPSEEK2 above.

Inf1delis · 2024-12-15T13:29:45Z

Thank you for your suggestions! I hadn't noticed that.
The changes have been made: the new DS code is now placed before DeepseekV2Model and before case LLM_ARCH_DEEPSEEK2.

* Add deepseek v1 arch & gigachat template * improve template code * add readme * delete comments * remove comment * fix format * lint llama.cpp * fix order of deepseek and deepseek2, move gigachat temlate to the end of func * fix order of deepseek and deepseek2 in constants; mark shared exp as deepseek arch need * remove comments * move deepseek above deepseek2 * change placement of gigachat chat template

Inf1delis added 5 commits December 14, 2024 15:23

Add deepseek v1 arch & gigachat template

da8cf83

Merge remote-tracking branch 'fork/master'

9f89d7d

improve template code

2d30fd4

add readme

ca168fc

delete comments

f3d0a23

github-actions bot added testing Everything test related python python script changes labels Dec 14, 2024

Inf1delis added 2 commits December 14, 2024 20:22

remove comment

8971417

fix format

7985295

alterfo approved these changes Dec 14, 2024

View reviewed changes

Inf1delis added 4 commits December 15, 2024 13:37

lint llama.cpp

66e59b0

fix order of deepseek and deepseek2, move gigachat temlate to the end…

b32159c

… of func

fix order of deepseek and deepseek2 in constants; mark shared exp as …

43c6795

…deepseek arch need

remove comments

6e13df8

Merge remote-tracking branch 'upstream/master' into gigachat-model

5806435

ggerganov approved these changes Dec 15, 2024

View reviewed changes

Inf1delis added 2 commits December 15, 2024 20:22

move deepseek above deepseek2

78ef426

Merge remote-tracking branch 'upstream/master' into gigachat-model

6cdb3d8

Inf1delis requested a review from ggerganov December 15, 2024 13:29

change placement of gigachat chat template

0c6eafd

ggerganov merged commit a097415 into ggerganov:master Dec 15, 2024
1 check passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add Deepseek MoE v1 & GigaChat models #10827

Add Deepseek MoE v1 & GigaChat models #10827

Inf1delis commented Dec 14, 2024 •

edited

Loading

Inf1delis commented Dec 15, 2024

ggerganov left a comment

ggerganov Dec 15, 2024

ggerganov Dec 15, 2024

Inf1delis commented Dec 15, 2024

Add Deepseek MoE v1 & GigaChat models #10827

Add Deepseek MoE v1 & GigaChat models #10827

Conversation

Inf1delis commented Dec 14, 2024 • edited Loading

Inf1delis commented Dec 15, 2024

ggerganov left a comment

Choose a reason for hiding this comment

ggerganov Dec 15, 2024

Choose a reason for hiding this comment

ggerganov Dec 15, 2024

Choose a reason for hiding this comment

Inf1delis commented Dec 15, 2024

Inf1delis commented Dec 14, 2024 •

edited

Loading