[发明专利]语音唤醒方法及装置有效
申请号: | 201710922732.X | 申请日: | 2017-09-30 |
公开(公告)号: | CN107622770B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 孙杨;谢波 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/30;G10L15/32;G10L15/10 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 唤醒 方法 装置 | ||
本发明提出一种语音唤醒方法及装置,该方法对本地的第一声学模型识别出的所检测到的唤醒语音与预设唤醒词信号之间相似度的不高也不低的情形,可以通过云端服务器的第二声学模型进行再次识别,可以尽可能地避免终端设备误唤醒或可以唤醒却没唤醒的情形发生,提高用户的体验度。此外,对通过第一声学模型识别出的唤醒语音与预设唤醒词信号之间相识度较高的情形或相识度较低的情形,由终端设备自身决定是否执行唤醒终端设备的操作,无需发送给云端服务器进行识别,这样可以提高终端设备的执行唤醒操作的效率。
技术领域
本发明涉及智能人机交互技术领域,尤其涉及一种语音唤醒方法及装置。
背景技术
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
随着语音识别技术的发展,越来越多的智能终端设备配置了语音唤醒功能。用户对着智能终端设备输入一段语音,智能终端设备通过内置的算法判断输入的语音是否包含唤醒词,若包含,则将智能终端设备从休眠状态切换到唤醒状态。
然而,由于用户可能身处不同的场景当中,例如用户正参加演唱会,现场比较嘈杂,智能终端设备接收到的语音中的噪声比较多,可能会使智能终端设备出现误唤醒,影响用户的体验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音唤醒方法。该方法对本地的第一声学模型识别出的所检测到的唤醒语音与预设唤醒词信号之间相似度的不高也不低的情形,可以通过云端服务器的第二声学模型进行再次识别,可以尽可能地避免终端设备误唤醒或可以唤醒却没唤醒的情形发生,提高用户的体验度。
为此,本发明的第二个目的在于提出一种语音唤醒装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机程序产品。
本发明的第五个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了语音唤醒方法,包括:
检测输入到终端设备的唤醒语音和所述终端设备所处的当前场景;
根据所述当前场景和场景与阈值的对应关系获取第一阈值和第二阈值,其中,所述第一阈值大于所述第二阈值;
根据第一声学模型对所述唤醒语音的声学特征进行分析,获取所述唤醒语音和预设唤醒词信号之间的第一相似度;
判断所述第一相似度是否大于所述第二阈值且小于所述第一阈值;
若判断结果为是,将所述唤醒语音发送给云端服务器以使云端服务器根据第二声学模型判断所述唤醒语音和所述预设唤醒词信号之间的第二相似度,若所述第二相似度大于所述第一阈值,则生成用于唤醒所述终端设备的唤醒指令;其中,所述第二声学模型的识别精度大于所述第一声学模型的识别精度;
接收所述唤醒指令并执行唤醒所述终端设备的操作。
如上所述的方法,所述若所述第二相似度大于所述第一阈值,则生成用于唤醒所述终端设备的唤醒指令,包括:
根据所述第二声学模型对所述唤醒语音的声学特征进行分析,获取所述唤醒语音对应的发音序列;
根据语言模型对所述唤醒语音对应的发音序列进行分析,获取所述唤醒语音对应的文本序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710922732.X/2.html,转载请声明来源钻瓜专利网。