背景

rtp-llm当前支持weight only量化，包含int8和int4；可以显著减少显存占用，并加速decode阶段。已知问题：Weight Only量化在Prefill阶段，长sequence时可能会导致性能下降其中，weight only int8量化load float32/float16/bfloat16的weight，并对称量化得到int8 weight和scales；int4量化支持GPTQ和AWQ，需要load经由AutoGPTQ/AutoAWQ转化的ckpt。

Weight Only Int8量化

设置环境变量： INT8_MODE=1 或 WEIGHT_TYPE=int8 即可 Weight Only Int8量化仅支持SM70及以上。

Weight Only Int4量化

不需要设置环境。模型config需要包含量化相关config，包含bits, group_size, quant_method GPTQ config示例：

"quantization_config": {
    "bits": 4,
    "group_size": 128,
    "quant_method": "gptq"
}

AWQ config示例：

"quantization_config": {
    "bits": 4,
    "group_size": 128,
    "quant_method": "awq"
}

Weight Only Int4量化仅支持SM80及以上。当前在Qwen/Qwen2支持。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Quantization.md

Quantization.md

背景

Weight Only Int8量化

Weight Only Int4量化

Files

Quantization.md

Latest commit

History

Quantization.md

File metadata and controls

背景

Weight Only Int8量化

Weight Only Int4量化