X3 Mul耗时远超conv

两个1x9x640x384 矩阵做乘法,computing cost 23526 us。而1x9x640x384的矩阵做一次卷积,输出1x1x640x384的图像,computing cost 才1868 us。 两者算力相近,甚至卷积略高。为什么实际跑下来差这么多? 这里的Mul是主干和分支的相乘,即一主干侧有很多卷积,分支侧卷积少,然后两者相乘,Mul这么耗时和这个相关吗,这个耗时包括等待的时间吗? 我该怎么提升这个Mul速度?

你好,请以编译器的日志为主,目前编译器内部实现的行为无法在应用层解释。