Add support for targeting cross_attn layers in mllama #693

ajtejankar · 2024-11-22T03:00:24Z

Previous PR that added support for mllama models didn't allow targeting cross attention layers in the text model. This PR adds support for it. I think the code is ready, but it needs to be tested with an adapter.

ajtejankar · 2024-11-23T05:54:12Z

I've verified this against an adapter targeting all modules that was trained on a small subset of the Doc VQA dataset. It's ready to merge.

arnavgarg1

LGTM! Let's merge after resolving the merge conflict

ajtejankar added 4 commits November 21, 2024 18:58

add support for targeting cross_attn layers in mllama

b791685

fix q,k,v cross attn projections

0c5e83c

fix k_proj and v_proj output sizes bug in cross_attn

b347ecc

only do sgmv for mllama

dab0740

ajtejankar requested review from tgaddair and arnavgarg1 November 23, 2024 05:54

arnavgarg1 approved these changes Nov 27, 2024

View reviewed changes

Merge branch 'main' into support-cross-attn-mllama

b3d16c7

ajtejankar merged commit c96ff88 into main Nov 27, 2024
1 check passed

ajtejankar deleted the support-cross-attn-mllama branch November 27, 2024 20:44

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add support for targeting cross_attn layers in mllama #693

Add support for targeting cross_attn layers in mllama #693

ajtejankar commented Nov 22, 2024

ajtejankar commented Nov 23, 2024

arnavgarg1 left a comment

Add support for targeting cross_attn layers in mllama #693

Add support for targeting cross_attn layers in mllama #693

Conversation

ajtejankar commented Nov 22, 2024

ajtejankar commented Nov 23, 2024

arnavgarg1 left a comment

Choose a reason for hiding this comment