实测 RDK X5 可本地运行超60个语言大模型(llama.cpp框架GGUF格式)

注:本文所提供的数据和模型性能仅供开发者社区参考,不代表商业量产交付的最终性能。-

摘要

-

目前调研来看,带NPU的SBC运行YOLO这种视觉模型,NPU的速度是CPU速度的几十到几百倍,但是运行LLM这种语言模型,NPU的速度最多也只有CPU的1.2~1.6倍,同时让NPU运行LLM会花费更多的人力和物力成本,所以现阶段使用CPU运行语言任务,NPU专注于视觉任务,也不失为一种较为合理的搭配方式。-
本文参考社区大佬**@潜沉10的文章,在RDK X5上使用llama.cpp框架运行语言大模型。分别测试了thread_num=4和8的情况,测试共8家的语言大模型,一共63个,涵盖0.5B14B等不同参数量,其中能跑到10token/s以上的9个,5token/s以上的14个,1 token/s以上的52**个。使用的GGUF模型文件也保存在了百度网盘,欢迎大家在RDK X5上来尝试,希望大家玩的开心。

https://horizonrobotics.feishu.cn/docx/LQU9dYyjcoXJ9hxJdUYc2l4InE

1 个赞

请教一下,X5可以指定LLM模型在CPU或者BPU上跑么?