怎么提升bpu的使用率呢？

yuzhe123 · 2026 年6 月 27 日 08:53

我现在在板端跑了三个模型，bpu撑死就27的使用率，求大佬指点

地瓜小助手_bot · 2026 年6 月 27 日 08:54

我来帮你搜索一下社区中关于 BPU 使用率优化的相关讨论和建议。

你好！BPU 利用率低（27%）通常不是模型本身的问题，而是数据供给（Data Feeding）或任务调度没跟上 BPU 的处理速度。BPU 大部分时间在“等数据”，而不是在“满负荷计算”。

针对 RDK X5 跑三个模型的情况，请按以下顺序排查：

1. 核心原因分析

BPU 利用率 = BPU 实际计算时间 / 总耗时。
利用率低说明：预处理 + 数据拷贝 + 后处理 + 模型间同步 的耗时 > BPU 计算耗时。

2. 关键排查步骤

第一步：检查是否使用了“零拷贝” (Zero-Copy)

这是最常见的原因。如果图像数据在 CPU 和 BPU 之间频繁拷贝，带宽会成为瓶颈。

检查点：确认你的推理代码是否使用了 hobot_dvpp 或 hobot_mpi 进行内存共享，而不是 memcpy。
正确做法：
- 摄像头数据 → DVPP (硬件解码/缩放) → 共享内存句柄 → BPU 推理。
- 避免将图像数据先读到 CPU 内存（如 numpy.array），再传给 BPU。

第二步：检查多模型调度策略

你跑了三个模型，是串行还是并行？

串行执行：模型 A 跑完 → 模型 B → 模型 C。
- 现象：BPU 在跑 A 时，B 和 C 在等；总耗时是三者之和，BPU 空闲时间长。
- 解决：必须使用多线程/多进程并行推理，或者使用 TROS 的 nodelet / component 机制流水线化。
资源争抢：三个模型是否都配置为使用同一个 BPU 核心？
- RDK X5 有多个 BPU 核心（通常是 BPU0, BPU1）。
- 建议：在编译模型或加载时，尝试将不同模型绑定到不同的 BPU 核心（如果硬件支持多核独立调度）。

第三步：检查输入分辨率与 Batch Size

分辨率过小：如果输入图像很小（如 224x224），BPU 瞬间算完，CPU 预处理跟不上，利用率自然低。
- 测试：尝试提高输入分辨率（在模型允许范围内），看利用率是否上升。
Batch Size = 1：单个样本推理会导致 BPU 频繁启停。
- 优化：如果业务允许，尝试将 Batch Size 设为 2 或 4（需模型编译时支持），让 BPU 一次处理更多数据。

第四步：使用性能分析工具 (Profiling)

不要猜，直接看数据。使用地平线提供的工具分析耗时分布。

工具：hrt_model_exec (带 perf 参数) 或板端性能分析脚本。

命令示例：

# 查看模型各层耗时，确认是 Compute 耗时少，还是 Copy/Preprocess 耗时多
hrt_model_exec --model your_model.bin --input input.jpg --perf

关注指标：
- h2d (Host to Device) 拷贝时间
- pre_process (预处理) 时间
- compute (BPU 计算) 时间
- 如果 h2d + pre_process >> compute，说明瓶颈在数据供给。

3. 针对“三个模型”的特别建议

如果你的三个模型是级联关系（如：检测 → 关键点 → 识别）：

流水线设计：
- 线程 1：负责摄像头采集 + 模型 A 推理
- 线程 2：负责模型 A 输出处理 + 模型 B 输入准备 + 模型 B 推理
- 线程 3：负责模型 B 输出处理 + 模型 C 推理
- 关键：使用消息队列或共享内存在线程间传递数据句柄，避免数据拷贝。

4. 社区参考案例

社区中有类似问题的讨论，建议参考以下帖子的优化思路：

Rdkx5 yolo 推理帧率低 BPU 占用也低 - 分析了 C++ 部署中数据链路的问题。
怎样合理分配 CPU 和 BPU 的利用率？ - 讨论了多模型并发时的资源分配。
地瓜派 RDK X5 部署 YOLOv11n 完整实战：从 7 FPS 到 47 FPS 的性能优化之路 - 详细记录了通过优化数据流提升性能的过程。

总结行动清单

确认内存零拷贝：检查代码中是否有不必要的 memcpy 或 CPU 数据转换。
并行化：确保三个模型是并行推理，而非串行。
Profiling：运行 hrt_model_exec --perf 看耗时分布，定位瓶颈是 IO 还是计算。
检查 DVPP：确认图像预处理（缩放、格式转换）是否调用了硬件 DVPP 而非 CPU OpenCV。

如果方便，可以提供一下你的模型类型（如 YOLO, Segmentation, LLM）和推理代码框架（C++/Python, TROS/原生），我可以给出更具体的代码级建议。

Marcelo6151 · 2026 年6 月 29 日 03:31

X5 BPU为单核一次只能推理一个模型，可以尝试增大batch 和使用更大尺寸的模型

hahahaha · 2026 年6 月 29 日 12:21

您好，我想问下s100p的bpu可以同时推理多个模型吗

地瓜小助手_bot · 2026 年6 月 29 日 12:21

你好！关于 RDK S100P 的 BPU 是否能同时推理多个模型，结论如下：

核心结论

不能。 S100P 的 BPU 同一时间只能调度 1 个模型实例 进行推理，无法真正实现多模型并发。

原因分析

限制维度	说明
硬件架构	S100P 的 BPU 是单一物理加速器，不支持硬件级虚拟化或多实例隔离
驱动层	社区确认 `CONFIG_VFIO` 等虚拟化方案在 S100P 上不可用
官方回复	参考帖子当前使用S100P，BPU可以同时跑两个大模型吗？中的官方结论

可行的替代方案

虽然不能真正并发，但可以通过以下方式模拟多模型交替运行：

方案 1：时间分片（Time-Slicing）

# 伪代码示例
while True:
    result_a = model_a.infer(input_a)  # 模型 A 推理
    result_b = model_b.infer(input_b)  # 模型 B 推理（等 A 完成后）
    # BPU 在 A 推理时 B 等待，反之亦然

优点：实现简单
缺点：总耗时 = 模型A耗时 + 模型B耗时，BPU 利用率可能不高

方案 2：流水线设计（Pipeline）

如果模型之间有数据依赖关系（如检测 → 识别）：

线程1: 摄像头采集 → 模型A推理 → 共享内存
线程2: 从共享内存取数据 → 模型B推理 → 输出

关键：使用共享内存句柄传递数据，避免 CPU 拷贝
效果：虽然 BPU 仍是串行，但整体吞吐量提升

方案 3：增大 Batch Size

如果业务允许，将多个模型的输入合并成一个 Batch：

需要模型编译时支持 Batch > 1
可以让 BPU 一次处理更多数据，提升利用率

对比：X5 vs S100P

平台	BPU 核心数	多模型并发
RDK X5	单核	同一时间只能跑 1 个模型（Marcelo6151 确认）
RDK S100P	单核	同一时间只能跑 1 个模型

两个平台都是单 BPU 核心，多模型并发都需要靠软件调度实现。

建议排查方向

如果你的目标是提升整体吞吐量而非真正的并发：

Profiling：用 hrt_model_exec --perf 分析每个模型的耗时分布
零拷贝：确保模型间数据传递使用共享内存，而非 memcpy
DVPP 加速：图像预处理（缩放、格式转换）调用硬件 DVPP 而非 CPU OpenCV
模型优化：考虑模型融合（如检测+识别合并成一个模型）

参考帖子

如果你的应用场景对实时性要求很高，建议考虑：

模型轻量化（如 YOLO-Nano, MobileNet）
模型融合（多任务合一）
或者升级到多 BPU 核心的平台（如有）

需要更具体的代码级建议，可以提供你的模型类型和当前推理框架（C++/Python, TROS/原生）。