为什么quantization_aware要比简单的近似量化方法有效

模型量化优点:

减小模型尺寸,如8位整型量化可减少75%的模型大小

减少存储空间,在边缘侧存储空间不足时更具有意义

易于在线升级,模型更小意味着更加容易传输

减少内存耗用,更小的模型大小意味着不需要更多的内存

加快推理速度,访问一次32位浮点型可以访问四次int8整型,整型运算比浮点型运算更快

减少设备功耗,内存耗用少了推理速度快了自然减少了设备功耗

支持微处理器,有些微处理器属于8位的,低功耗运行浮点运算速度慢,需要进行8bit量化