模型跑起来后效率跟预期的算力效率不是很符合

杜文勇 · 2023 年8 月 10 日 07:54

你好，我这边测试下去，你们芯片上的推理时间好像不大对，不知你们有没有测试过insightface

的这个模型的效率，https://pan.baidu.com/s/1wuRTf2YIsKt76TxFufsRNA?\_at\_=1691573473655，在其它2T int8算力的芯片上我们上板实测后单张图，int8量化模型推理时间是19ms,fp16推理时间是31，可是在你们的板子上推理时间却要60毫秒（单核模式下，双核是40ms），可是你们板子不是5t算力的吗？可以的话，你们那也测试一下时间效率，这个时间效率目前对我们很重要，因为它关乎项目在你们芯片上是否能实质落地，辛苦了~~

颜值即正义 · 2023 年8 月 10 日 08:42

你好，麻烦提供一下onnx模型，使用的OE版本，转换过程中使用的yaml文件，我们来复现一下你的问题~

杜文勇 · 2023 年8 月 11 日 01:22

模型有200多MB,传不上来，要通过什么方式传给你们呢？

颜值即正义 · 2023 年8 月 11 日 02:06

百度网盘就行

杜文勇 · 2023 年8 月 11 日 03:59

链接：

https://pan.baidu.com/s/1GzuQi8gsKq\_wxUIRxF\_-ug?pwd=nit9

提取码：nit9

颜值即正义 · 2023 年8 月 15 日 03:14

你好，有复现你说的这个结果，分析可能是存在带宽瓶颈，建议使用更加高效的backbone，例如mobilenetv2/efficientnet-lite0等，未来在新的产品上，我们会针对类似问题进行进一步优化。