使用RDKX5对强化学习训练得到的机器人运控策略进行量化的问题

相似度如下图:


我看了一下 RDK X5量化Tinker模型过程 - 板卡使用 - 地瓜机器人论坛中的L1 Distance和L2 Distance都是0.00x,我这个差距还是有点大,我再优化一下试试