**团队名称:**大声密谋
**团队成员:**顾锦程、刘承伟、戴天驰、张岳、张悦、任扬扬、应昊蓉、江涛、王子昱、刘松、邢梦涛、孙世若、程光伟、迟旭然、朱天一
**研究方向:**智能语音终端
**项目名称:**绘声绘色的K宝ZeroCapsuleMax小秘书语音终端同学
作品简介:
他是可以视觉定位、定向拾音、声纹提取、会议纪要的会议宝;他是无麦K歌宝,满足你麦霸的愿望;他是最好用的智能语音终端;他就是绘声绘色的K宝ZeroCapsuleMax小秘书语音终端同学(Zero同学)!
作品亮点:
技术水平:
集无麦K歌、人体关键点检测、视觉DOA、定向拾音、人声追踪为一体的智能会议宝。智能会议宝系统采用地平线自研BPU芯片X3 派进行AI降噪处理,结合麦克风阵列进行波束设计,配合动态增益算法,实现空间目标语音的定向增强,有效去除环境噪声。结合多模视觉DOA算法,实时追踪目标说话人的语音。
探索创新:
(1)利用地平线 BPU 芯片和智能降噪算法的多功能会议宝,360° 全向拾音和高清降噪;
(2)支持多终端应用的语音转文字的智能麦克风,快速回看通话内容,整理会议记录更加方便;
(3)内置 6 颗麦克风,实现3-6米远距离拾音,结合视觉DOA算法,实现目标声音的实时追踪 ;
(4)行业内第一款无麦K歌产品。
商业价值:
(1)声纹提取是较早学术层面到产品上的算法,可以解决传统基于角度分离无法处理的边界场景;
(2)无麦k歌可以进行远场K歌,家居产品市面上也无类似产品;
(3)视觉doa和定向拾音可以快速跟进市面主流产品,提升产品竞争力。
团队协作:
本项目作为语音全链路产品,集合语音前端和后端人员以及语音工程同事之力。前端同学们负责六麦定向拾音、声纹识别和无麦k歌等算法,以及对全套产品的硬件支持;后端同学提供流式asr识别和视觉doa算法;工程同学将以上算法进行集成整合。大家通力协作,众志成城,才有了这一款智能语音终端产品。
作品展示: