rtp-llm当前支持weight only量化,包含int8和int4;可以显著减少显存占用,并加速decode阶段。 已知问题:Weight Only量化在Prefill阶段,长sequence时可能会导致性能下降 其中,weight only int8量化load float32/float16/bfloat16的weight,并对称量化得到int8 weight和scales;int4量化支持GPTQ和AWQ,需要load经由AutoGPTQ/AutoAWQ转化的ckpt。
设置环境变量: INT8_MODE=1 或 WEIGHT_TYPE=int8 即可 Weight Only Int8量化仅支持SM70及以上。
不需要设置环境。 模型config需要包含量化相关config,包含bits, group_size, quant_method GPTQ config示例:
"quantization_config": {
"bits": 4,
"group_size": 128,
"quant_method": "gptq"
}
AWQ config示例:
"quantization_config": {
"bits": 4,
"group_size": 128,
"quant_method": "awq"
}
Weight Only Int4量化仅支持SM80及以上。 当前在Qwen/Qwen2支持。