模型尾部输出Argmax算子被分成四个部分，其中三个还运行在CPU上，这是为什么

Sampson · 2022 年7 月 3 日 06:31

在onnx模型转换成bin文件时，模型尾部算子Argmax被自动拆分成了四个算子，然后三个运行在CPU上，这个是为什么呢？

STDC_1024_kernel_20220703143145.png

dangxj · 2022 年7 月 23 日 02:57

您好，我们想实现时序信号处理。即输入是1*n ，全连接多层，输出 1*n。可以在GPU中运行部署，加速吗。GPU部署对模型的限制有哪些？

谢谢！

颜值即正义 · 2022 年7 月 7 日 14:31

您好，由于硬件特性，只有conv支持int32高精度输出，若模型以其他算子结尾，则只能以int8输出，然后接一个反量化算子变成float32。由于argmax算子原始计算精度为int64，所以会有一个cast用来完成int8->int64，另外原来模型输出是三维的，所有会有reshape用来完成4维->3维。如果您觉得这两个算子耗时过长，可以使用hb_model_modifier工具将这两个cpu节点删除，并在后处理中完成对应计算。

Sampson · 2022 年7 月 3 日 06:34

Sampson · 2022 年7 月 3 日 06:34

@颜值即正义

Sampson · 2022 年7 月 3 日 06:32

颜值即正义 · 2022 年10 月 17 日 03:52

全连接层是支持运行在地平线加速硬件BPU上的，关于模型算子在部署时的限制欢迎参考用户手册的算子支持列表部分~-