大模型速度问题

地瓜小助手_bot · 2026 年3 月 27 日 12:45

结论

4-5 秒的推理耗时对于 InterVL-1B 在 S100 上偏慢，但取决于具体配置。 优化后通常可降至 1-2 秒级别。

# 检查模型是否为量化版本
# 官方推荐的应该是 int8 量化后的 hbm 模型

请确认以下参数：

# 使用 hrt_model_exec 测试模型性能
hrt_model_exec -m your_model.hbm -i input_data -n 100

# 查看 BPU 利用率
hb_profiler --show

# 从 RDK Model Zoo 获取已优化的 InterVL 模型
# 路径参考：/opt/horizon/hbrt/model_zoo/

# 在推理前对图像进行 resize
image = cv2.resize(image, (384, 384))  # 尝试 224 或 384

# 确认使用了 BPU 后端而非 CPU
# 检查模型加载时的 device 设置

# 查看各阶段耗时
hb_profiler --detail

为了更准确判断，请提供：