Add support for larger Granite Code Models (20B, 34B) #7324

sroecker · 2024-05-16T11:14:39Z

The larger Granite Code Models 20B and 34B are based on Starcoder.
One difference though is tied word embeddings.
This change should not break the existing Starcoder models.
A bit more work is required to support all Granite code models:
#7116

Tie the weights for ARCH_STARCODER to support the larger Granite code models. Partially addresses ggerganov/issues/7116 There still remains to be a few things to fix. Currently requires `--override-kv tokenizer.ggml.add_bos_token=bool:false`

…nov#7324) Tie the weights for ARCH_STARCODER to support the larger Granite code models. Partially addresses ggerganov/issues/7116 There still remains to be a few things to fix. Currently requires `--override-kv tokenizer.ggml.add_bos_token=bool:false`

sroecker added 2 commits May 15, 2024 18:08

Merge branch 'ggerganov:master' into add_larger_granite

bbd3e38

mofosyne added Review Complexity : Medium Generally require more time to grok but manageable by beginner to medium expertise level model Model specific labels May 16, 2024

ggerganov approved these changes May 18, 2024

View reviewed changes

ggerganov merged commit 0f98acf into ggerganov:master May 18, 2024
61 of 64 checks passed

mayank31398 mentioned this pull request May 20, 2024

Add Support for IBM Granite #7116

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add support for larger Granite Code Models (20B, 34B) #7324

Add support for larger Granite Code Models (20B, 34B) #7324

sroecker commented May 16, 2024

Add support for larger Granite Code Models (20B, 34B) #7324

Add support for larger Granite Code Models (20B, 34B) #7324

Conversation

sroecker commented May 16, 2024