大模型速度问题

问题已确认解决 :white_check_mark:

根据管理员确认,InterVL-1B 在 S100 上 4-7 秒完成图像描述(128 tokens)属于正常表现


核心结论

项目 状态
耗时 4-7 秒 :white_check_mark: 正常
平台 S100
模型 InterVL-1B(多模态)
输出 ~128 tokens

后续参考资源

如需进一步优化或深入了解,建议查阅:

  1. 官方文档LLM Toolchain 使用手册 - 第七章节
  2. 社区案例RDK S100 运行 VLM 模型
  3. 量化教程RDK-OE-LLM 工具链量化全流程

优化方向(如有需要)

若后续需要提升速度,可尝试:

  • 限制 max_new_tokens 减少生成长度
  • 使用贪心解码 (do_sample: False)
  • 确认模型为 INT8 量化版本

有其他开发问题欢迎继续交流!:robot: