[发明专利]唤醒语音确定方法、装置、设备及介质有效
申请号: | 202010992171.2 | 申请日: | 2020-09-21 |
公开(公告)号: | CN111933112B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 靳源;冯大航;陈孝良 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L25/51 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢少真 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 唤醒 语音 确定 方法 装置 设备 介质 | ||
本公开提供了一种唤醒语音确定方法、装置、设备及介质,属于音频处理技术领域。本公开实施例提供的技术方案,通过一次分类,初步确定待处理语音是否为唤醒语音后,在确定是的情况下,进行二次分类验证,通过两次分类,能够避免误唤醒,提高唤醒准确率。且在二次验证时基于一次分类的分类结果进行特征提取,以插值的方式来得到目标长度,这样并未限定特征提取的语音特征的长度,能够有效避免语音特征中包括静音段或唤醒词不全的情况,进而提高了唤醒准确率和成功率。
技术领域
本公开涉及音频处理技术领域,特别涉及一种唤醒语音确定方法、装置、设备及介质。
背景技术
近年来,随着音频处理技术的不断发展,智能音箱、车载语音交互系统等智能语音交互系统不断普及,为了减少用户操作,提供了一种语音唤醒功能,通过对采集到的语音进行识别,确定是否为唤醒语音,进而能够实现对设备的语音唤醒。
相关技术中,唤醒语音确定方法通常是:对待处理语音进行特征提取,得到固定长度的语音特征,将其输入卷积神经网络(Convolutional Neural Networks, CNN)网络中进行分类。
用户朗读的唤醒词一般长度并不固定,上述方法限定了输入CNN网络的语音特征的长度,固定长度的语音特征输入网络判别可能会导致送入部分静音段(也即是并非用户语音的部分),或者部分唤醒词的部分被截掉,从而导致唤醒语音确定不准确,从而唤醒成功率低,也容易出现误唤醒的情况,准确率低。
发明内容
本公开实施例提供了一种唤醒语音确定方法、装置、设备及介质,提高了唤醒成功率和准确率。所述技术方案如下。
一方面,提供了一种唤醒语音确定方法,所述方法包括:
对待处理语音进行特征提取,得到所述待处理语音的第一语音特征;
对所述第一语音特征进行分类,得到分类结果;
响应于所述分类结果指示所述待处理语音为唤醒语音,基于所述分类结果,获取第二语音特征;
对所述第二语音特征进行插值处理,得到第三语音特征,所述第三语音特征的长度为目标长度;
对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音。
在一种可能实现方式中,所述对所述第一语音特征进行分类,得到分类结果,包括:
对所述第一语音特征进行识别,得到每个第一语音特征对应的音素;
基于所述第一语音特征的识别结果,对所述第一语音特征进行分类,得到所述分类结果。
在一种可能实现方式中,分类结果包括所述待处理语音为唤醒语音的置信度和所述第一语音特征中唤醒词的目标路径;
所述响应于所述分类结果指示所述待处理语音为唤醒语音,基于所述分类结果,获取第二语音特征,包括下述任一项:
响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,对所述第一语音特征进行截取,得到所述第二语音特征;
响应于所述置信度大于置信度阈值,基于所述分类结果中所述目标路径,确定第一长度;基于所述第一长度,从所述待处理语音中截取所述第一长度的语音;对所述截取得到的语音进行特征提取,得到所述第二语音特征。
在一种可能实现方式中,所述对所述第一语音特征进行分类,得到分类结果,包括:
将所述第一语音特征输入语音处理模型中,由所述语音处理模型执行分类步骤输出所述分类结果;
所述对所述第三语音特征进行分类,确定所述待处理语音是否为唤醒语音,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010992171.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发声模组
- 下一篇:一种CuCr合金电工触头专用金属铬粉的制备方法