多batch推理的fps

1.天工开物开发包OpenExplorer版本:J5_OE_1.1.40

2.问题定位:模型转换后的性能

3.问题具体描述

(1)设置batch为4时,json文件里的fps是已经乘batch=4以后的实际fps了吗?

(2)batch为1时,BPU Model Latency = 1000/fps,batch为4时,BPU Model Latency = 1000/(fps/batch),请问为什么这里还要除以batch?

感谢您使用地平线芯片算法工具链,最近我们在收集大家的满意度反馈,欢迎您填写问卷,详细情况可见:https://developer.horizon.ai/forumDetail/146177053698464782

(1)json是乘过了的。但json文件里的fps只是一个估计,是一种参考,不准确,请以hrt_model_exec上板实测的性能为准,并且上板实测的FPS结果不会自动乘上batch。

(2)在测试latency时,请以单线程的测试结果为准,多线程下存在线程调度开销。且latency同样建议使用hrt_model_exec工具上板实测,且这里的latency是推理完所有batch的latency。

好滴 谢谢。