[发明专利]基于人工智能的语音唤醒方法、装置和计算机设备有效
申请号: | 201710343874.0 | 申请日: | 2017-05-16 |
公开(公告)号: | CN107221326B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 孙珏;陈明明;李先刚 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L25/30;G10L25/45;G06N3/02;G06F9/44;G06F3/16 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 语音 唤醒 方法 装置 计算机 设备 | ||
本申请提出一种基于人工智能的语音唤醒方法、装置和计算机设备,该基于人工智能的语音唤醒方法,包括:对在线录制的语音进行加窗分帧操作,获得至少一个语音帧;对所述语音帧进行特征提取,获得语音特征;通过基于卷积神经网络的语音唤醒模型对所述语音帧包含的静态的语音特征进行计算,获得所述语音帧包含的静态的语音特征对应于非唤醒词类别和唤醒词类别的后验概率;当所述语音帧包含的静态的语音特征对应于唤醒词类别的后验概率大于或等于预定阈值时,确定所述在线录制的语音中包括唤醒词。本申请可以有效地降低基于卷积神经网络的语音唤醒模型的参数量,从而达到降低运算量的目的,并且本申请可以提升语音唤醒的效果。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种基于人工智能的语音唤醒方法、装置和计算机设备。
背景技术
在智能家居或者语音交互系统中,语音唤醒(wakeword)技术应用非常广泛。但是语音唤醒的效果和运算量大大地降低了语音唤醒的实际应用体验,提高了语音唤醒对设备硬件的要求,例如:如果语音唤醒的误唤醒率在应用中大于一个阈值,如1个/3小时,这样的唤醒误触发频率就有可能引起用户的反感;另一方面,如果语音唤醒的运算量超出了一些低端芯片的运算能力,就会制约很多产品使用语音唤醒技术。
现有的相关技术中,语音唤醒使用的技术是关键词识别(keyword-spotting)方法,通过设计一个小的深度神经网络(Deep Neural Networks;以下简称:DNN)的模型,搭建一个巧妙的小解码网络,配合一些关键词检出的小技巧(trick),实现语音唤醒功能。
但是,上述关键词识别方法的语音唤醒技术,模型参数量较大,而且针对不同的唤醒词,填充词(filler)的设计均要改变,相应的解码参数和检出的trick都要进行调整,很难有一个统一的算法来确保每一个唤醒词的效果处于一个稳定的水平,而且这种设定好filler之后,唤醒词的误识水平就固定了,并不能够灵活方便的对误识的唤醒词进行调整和学习。
发明内容
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于人工智能的语音唤醒方法。该方法可以有效地降低基于卷积神经网络的语音唤醒模型的参数量,从而达到降低运算量的目的,另外该方法通过使用后验概率的策略,可以使得运算量进一步减小;并且该方法针对唤醒词和非唤醒词有更好的区分度,可以提升语音唤醒的效果。
本申请的第二个目的在于提出一种基于人工智能的语音唤醒装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种计算机可读存储介质。
为了实现上述目的,本申请第一方面实施例的基于人工智能的语音唤醒方法,包括:对在线录制的语音进行加窗分帧操作,获得至少一个语音帧;对所述语音帧进行特征提取,获得语音特征;通过基于卷积神经网络的语音唤醒模型对所述语音帧包含的静态的语音特征进行计算,获得所述语音帧包含的静态的语音特征对应于非唤醒词类别和唤醒词类别的后验概率;当所述语音帧包含的静态的语音特征对应于唤醒词类别的后验概率大于或等于预定阈值时,确定所述在线录制的语音中包括唤醒词。
本申请实施例的基于人工智能的语音唤醒方法中,对在线录制的语音进行加窗分帧操作,获得至少一个语音帧之后,对上述语音帧进行特征提取,获得语音特征,然后通过基于卷积神经网络的语音唤醒模型对上述语音帧包含的静态的语音特征进行计算,获得上述语音帧包含的静态的语音特征对应于非唤醒词类别和唤醒词类别的后验概率,当上述语音帧包含的静态的语音特征对应于唤醒词类别的后验概率大于或等于预定阈值时,确定在线录制的语音中包括唤醒词,上述基于卷积神经网络的语音唤醒模型的输入特征较少,从而可以达到降低运算量的目的,另外该方法通过使用后验概率的策略,使得运算量进一步减小;并且该方法针对唤醒词和非唤醒词有更好的区分度,可以提升语音唤醒的效果;另外,该方法不需要针对每一个唤醒词挑选不同的非唤醒词,提高了该方法的通用性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710343874.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤矿井下设备的散热装置
- 下一篇:一种管式分离机转鼓抓取车