实测 RDK X5 可本地运行超60个语言大模型（llama.cpp框架GGUF格式）

CauchyKesai · 2024 年12 月 13 日 09:15

注：本文所提供的数据和模型性能仅供开发者社区参考，不代表商业量产交付的最终性能。-

摘要

-

目前调研来看，带NPU的SBC运行YOLO这种视觉模型，NPU的速度是CPU速度的几十到几百倍，但是运行LLM这种语言模型，NPU的速度最多也只有CPU的1.2～1.6倍，同时让NPU运行LLM会花费更多的人力和物力成本，所以现阶段使用CPU运行语言任务，NPU专注于视觉任务，也不失为一种较为合理的搭配方式。-
本文参考社区大佬**@潜沉10的文章，在RDK X5上使用llama.cpp框架运行语言大模型。分别测试了thread_num=4和8的情况，测试共8家的语言大模型，一共63个，涵盖0.5B到14B等不同参数量，其中能跑到10token/s以上的9个，5token/s以上的14个，1 token/s以上的52**个。使用的GGUF模型文件也保存在了百度网盘，欢迎大家在RDK X5上来尝试，希望大家玩的开心。

https://horizonrobotics.feishu.cn/docx/LQU9dYyjcoXJ9hxJdUYc2l4InE

TouGethar · 2025 年4 月 24 日 11:21

请教一下，X5可以指定LLM模型在CPU或者BPU上跑么？