optimize qwen2 memory usage again #11520

MeouSker77 · 2024-07-05T08:54:37Z

Description

attention_mask is not required when using sdp_causal and batch_size=1 or generating 2nd+ token, so don't generate it in these cases to save memory

MeouSker77 · 2024-07-05T09:27:37Z

PR validation: https://github.com/intel-analytics/ipex-llm-workflow/actions/runs/9805767952/job/27076276807

optimize qwen2 memory usage again

e7e7d19

MeouSker77 requested a review from rnwang04 July 5, 2024 08:54

rnwang04 approved these changes Jul 5, 2024

View reviewed changes

MeouSker77 merged commit 7cb09a8 into intel-analytics:main Jul 5, 2024
1 check passed

MeouSker77 deleted the optimize-qwen2-mem-again branch July 5, 2024 09:32

RyuKosei pushed a commit to RyuKosei/ipex-llm that referenced this pull request Jul 19, 2024

optimize qwen2 memory usage again (intel-analytics#11520)

e46396c

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

optimize qwen2 memory usage again #11520

optimize qwen2 memory usage again #11520

MeouSker77 commented Jul 5, 2024

MeouSker77 commented Jul 5, 2024

optimize qwen2 memory usage again #11520

optimize qwen2 memory usage again #11520

Conversation

MeouSker77 commented Jul 5, 2024

Description

MeouSker77 commented Jul 5, 2024