模型压缩的理解与经验总结

1. post training quantization是在训练结束后直接对参数进行量化:在量化前,此时的参数经过梯度下降,loss近似为原数据集上的全局最小值;在量化后,相当于对参数向量化坐标上投影,也可以理解为当前参数空间对目标空间的映射。虽然此目标空间是原空间的子集,但参数并保证loss在目标空间仍然为最小值。如下图所示,压缩后模型正确率只有0.1\par

\par

2. quantization aware在训练过程中就将参数映射到目标空间,此时训练还在进行,因此可以近似为在目标空间进行梯度下降。此时能达到的最小值是目标空间的最小值,因此比不能保证在目标空间loss仍然为最小值的post training quantization效果好。如下图所示,正确率还能保持在0.96

\par