【极客精神 玩转X3】 绘声绘色的K宝ZeroCapsuleMax小秘书语音终端同学@大声密谋战队

**团队名称:**大声密谋

**团队成员:**顾锦程、刘承伟、戴天驰、张岳、张悦、任扬扬、应昊蓉、江涛、王子昱、刘松、邢梦涛、孙世若、程光伟、迟旭然、朱天一

**研究方向:**智能语音终端

**项目名称:**绘声绘色的K宝ZeroCapsuleMax小秘书语音终端同学

作品简介:

他是可以视觉定位、定向拾音、声纹提取、会议纪要的会议宝;他是无麦K歌宝,满足你麦霸的愿望;他是最好用的智能语音终端;他就是绘声绘色的K宝ZeroCapsuleMax小秘书语音终端同学(Zero同学)!

作品亮点:

技术水平:

集无麦K歌、人体关键点检测、视觉DOA、定向拾音、人声追踪为一体的智能会议宝。智能会议宝系统采用地平线自研BPU芯片X3 派进行AI降噪处理,结合麦克风阵列进行波束设计,配合动态增益算法,实现空间目标语音的定向增强,有效去除环境噪声。结合多模视觉DOA算法,实时追踪目标说话人的语音。

探索创新:

(1)利用地平线 BPU 芯片和智能降噪算法的多功能会议宝,360° 全向拾音和高清降噪;

(2)支持多终端应用的语音转文字的智能麦克风,快速回看通话内容,整理会议记录更加方便;

(3)内置 6 颗麦克风,实现3-6米远距离拾音,结合视觉DOA算法,实现目标声音的实时追踪 ;

(4)行业内第一款无麦K歌产品。

商业价值:

(1)声纹提取是较早学术层面到产品上的算法,可以解决传统基于角度分离无法处理的边界场景;

(2)无麦k歌可以进行远场K歌,家居产品市面上也无类似产品;

(3)视觉doa和定向拾音可以快速跟进市面主流产品,提升产品竞争力。

团队协作:

本项目作为语音全链路产品,集合语音前端和后端人员以及语音工程同事之力。前端同学们负责六麦定向拾音、声纹识别和无麦k歌等算法,以及对全套产品的硬件支持;后端同学提供流式asr识别和视觉doa算法;工程同学将以上算法进行集成整合。大家通力协作,众志成城,才有了这一款智能语音终端产品。

作品展示: