[发明专利]一种麦克风响应方法及装置在审
申请号: | 201911097140.4 | 申请日: | 2019-11-11 |
公开(公告)号: | CN111048067A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 陈晓松 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L15/26;H04R1/32 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 麦克风 响应 方法 装置 | ||
本发明公开一种麦克风响应方法及装置,包括以下步骤:当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度;利用选举算法分别为语音识别置信度和发音角度进行打分;结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分;激活得分最高的麦克风设备。通过获取每个麦克风的语音识别置信度和发音角度进而结合距离进行打分解决了现有技术中只针对距离判断交互对象的问题,同时获取的语音识别置信度和发音角度受外界噪声影响较小,解决了现有技术中基于能量的距离比较算法,受外界噪声影响较大,以致于选举算法无法正常工作的问题,提高了响应的准确度。
技术领域
本发明涉及通信技术领域,尤其涉及一种麦克风响应方法及装置。
背景技术
随着人工智能技术的发展,推动了认知能力、感知能力以及自然语音输出能力这三个维度上的进步。其中,针对认知能力,基于用户行为的画像,将人机交互从“单向”关系带入了“双向关系”;针对感知能力,由触摸输入到以语音输入、图像识别为核心的全自然交互;针对自然语音输出能力,其带来了新的“语音”设计材料。同时,在一定程度上也丰富了终端设备的使用方式,如麦克风。
分布式麦克风“单一唤醒响应”功能,要求同一空间内多台设备,在用户说出唤醒词后,选举出一个最适合与用户交互的设备进行应答和完成后续交互。其核心在于选举算法,选举算法基于设备端上传的信息,决策哪台设备应该被选中来响应客户。现有技术中通过声音在空气中传播,其能量随传播距离逐渐衰减的原理,通过比较不同设备上采集的唤醒词音频的平均能量来比较说话人距离不同设备的距离,选择距离最近的设备进行交互。这种方法存在着以下问题:1、在设备差异较大的使用场景中,难以选出最优的交互设备,因为距离无法完全代表设备的交互能力;2、基于能量的距离比较算法,受外界噪声影响较大,以致于上述算法无法正常工作。
发明内容
针对上述所显示出来的问题,本方法基于获取麦克风设备的语音识别置信度和发音角度并结合麦克风设备和用户之间的发音距离通过选举算法进行打分选取得分最高的麦克风设备来响应用户。
一种麦克风响应方法,包括以下步骤:
当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度;
分别为语音识别置信度和发音角度进行打分;
结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分;
激活得分最高的麦克风设备响应所述语音。
优选的,当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度,包括:
接收用户对每个麦克风设备说出预设唤醒词;
根据DSP算法输出每个麦克风设备采集的预设唤醒词的发音角度信息;
利用唤醒引擎输出每个麦克风设备对预设唤醒词的语音识别置信度。
优选的,分别为语音识别置信度和发音角度进行打分,包括:
利用下列公式为每个麦克风设备的语音识别置信度信息进行打分:
wuwscore=(conf-thresh)*α
其中,conf为语音识别置信度,thresh为预设语音识别置信度,conf大于thresh,α为一个预设系数,wuwscore为每个麦克风设备的语音识别置信度得分。
优选的,分别为语音识别置信度和发音角度进行打分,还包括:
利用下列公式为每个麦克风设备的发音角度信息进行打分:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911097140.4/2.html,转载请声明来源钻瓜专利网。