量化 #24

zhangjun · 2022-05-27T06:26:00Z

PaddleSlim量化

PaddleSlim主要包含三种量化方法：量化训练(Quant Aware Training, QAT)、动态离线量化(Post Training Quantization Dynamic, PTQ Dynamic)、静态离线量化(Post Training Quantization Static, PTQ Static)。

量化训练量化训练让模型感知量化运算对模型精度带来的影响，通过finetune训练降低量化误差。
动态离线量化动态离线量化仅将模型中特定算子的权重从FP32类型映射成INT8/16类型。
静态离线量化静态离线量化使用少量无标签校准数据，采用KL散度等方法计算量化比例因子。

综合对比了模型量化方法的使用条件、易用性、精度损失和预期收益。

量化方法	API接口	功能	经典适用场景
在线量化 (QAT)	动态图：paddleslim.QAT; 静态图：paddleslim.quant.quant_aware	通过finetune训练将模型量化误差降到最小	对量化敏感的场景、模型，例如目标检测、分割, OCR
静态离线量化 (PTQ Static)	paddleslim.quant.quant_post_static	通过少量校准数据得到量化模型	对量化不敏感的场景，例如图像分类任务
动态离线量化 (PTQ Dynamic)	paddleslim.quant.quant_post_dynamic	仅量化模型的可学习权重	模型体积大、访存开销大的模型，例如BERT模型
Embedding量化（Quant Embedding）	paddleslim.quant.quant_embedding	仅量化模型的Embedding参数	任何包含Embedding层的模型

静态离线量化（Post Training Quantization Static, PTQ Static）

静态离线量化中，有两种计算量化因子的方法，非饱和量化方法和饱和量化方法。非饱和量化方法计算整个Tensor的绝对值最大值abs_max，将其映射为127。饱和量化方法使用KL散度计算一个合适的阈值T (0<T<mab_max)，将其映射为127。一般而言，待量化Op的权重采用非饱和量化方法，待量化Op的激活（输入和输出）采用饱和量化方法。

zhangjun · 2022-05-27T06:28:51Z

PaddleSlim离线量化原理

zhangjun · 2022-08-28T13:03:45Z

量化基础

无损定点化
无损定点化：量化误差小于量化精度的一半，称为“无损定点化”。
最高位符号位+整数位+n位小数位，称为Qn格式，n表示小数点后有n位小数。定点化后1/Qn称为量化精度。
例： 0.918表示为Q8格式定点数
0.918 = 0.918*28=235.008，四舍五入取整后等于235
量化精度为1/28，即以1/28为单位，0.918等于235.008个1/28，定点化后与原0.918的误差为0.008个1/28，小于0.5个1/28，因此是无损定点化。

zhangjun · 2022-09-03T11:59:13Z

low precision

fp16溢出

 batch_norm、softmax、pooling 为防止溢出，需要使用fp32

zhangjun · 2022-12-28T09:55:46Z

高通量化
https://www.csdn.net/article/2022-03-22/123659736

zhangjun · 2023-03-31T02:53:35Z

TensorRT int8量化

tensorrt量化

zhangjun · 2023-04-04T05:53:19Z

TODO

https://zhuanlan.zhihu.com/p/92153268
https://zhuanlan.zhihu.com/p/349678095
https://zhuanlan.zhihu.com/p/362033017
https://zhuanlan.zhihu.com/p/415690699
https://zhuanlan.zhihu.com/p/336682366
https://zhuanlan.zhihu.com/p/199710646

zhangjun · 2023-08-29T02:29:58Z

Sparse

Efficient GPU Kernels for N:M-Sparse Weights in Deep Learning
Apex N:M sparse
Sparse GPU Kernels for Deep Learning
Efficient Tensor Core-Based GPU Kernels for Structured Sparsity under Reduced Precision
N:M Fine-grained Structured Sparse Neural Networks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

量化 #24

量化 #24

zhangjun commented May 27, 2022 •

edited

Loading

zhangjun commented May 27, 2022

zhangjun commented Aug 28, 2022

zhangjun commented Sep 3, 2022

zhangjun commented Dec 28, 2022

zhangjun commented Mar 31, 2023 •

edited

Loading

zhangjun commented Apr 4, 2023 •

edited

Loading

zhangjun commented Aug 29, 2023 •

edited

Loading

量化 #24

量化 #24

Comments

zhangjun commented May 27, 2022 • edited Loading

PaddleSlim量化

静态离线量化（Post Training Quantization Static, PTQ Static）

zhangjun commented May 27, 2022

zhangjun commented Aug 28, 2022

量化基础

zhangjun commented Sep 3, 2022

low precision

zhangjun commented Dec 28, 2022

zhangjun commented Mar 31, 2023 • edited Loading

TensorRT int8量化

zhangjun commented Apr 4, 2023 • edited Loading

TODO

zhangjun commented Aug 29, 2023 • edited Loading

Sparse

zhangjun commented May 27, 2022 •

edited

Loading

zhangjun commented Mar 31, 2023 •

edited

Loading

zhangjun commented Apr 4, 2023 •

edited

Loading

zhangjun commented Aug 29, 2023 •

edited

Loading