[发明专利]语音唤醒方法、装置、设备及存储介质有效
申请号: | 202110461938.3 | 申请日: | 2021-04-27 |
公开(公告)号: | CN113241059B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 何梦中;李秀林;吴本谷 | 申请(专利权)人: | 标贝(北京)科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/22;G10L17/22;G10L17/02;G10L17/00;G10L17/18;G10L17/08;G10L25/87 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰;张玮 |
地址: | 100192 北京市海淀区西小口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 唤醒 方法 装置 设备 存储 介质 | ||
本发明提供了一种语音唤醒方法、装置、设备及存储介质。其中包括:获取自当前唤醒人产生的音频信号;提取音频信号的声学特征;对音频信号进行一级唤醒检测,以得到一级检测结果;在一级检测结果通过的情况下,对音频信号进行二级唤醒检测,以得到二级检测结果,同时通过音频信号的声学特征对音频信号进行声纹验证;在二级检测结果通过的情况下,根据一级检测结果、二级检测结果和声纹验证结果分别执行对应的操作。在保证语音唤醒的响应速度的同时支持声纹验证,实现了语音唤醒和声纹验证的结合,满足了用户的多样需求。
技术领域
本发明涉及语音处理技术领域,更具体地涉及一种语音唤醒方法、装置、设备及存储介质。
背景技术
随着语音处理技术的发展,带有语音唤醒功能的电子设备越来越普及。现有技术中,电子设备的唤醒功能比较单一,难以满足用户的多样化需求。
因此,亟需一种新的语音唤醒技术,以解决上述问题。
发明内容
考虑到上述问题而提出了本发明。本发明提供了一种语音唤醒方法、装置、设备及存储介质。
根据本发明一方面,提供了一种语音唤醒方法,包括:获取自当前唤醒人产生的音频信号;提取音频信号的声学特征;通过音频信号的声学特征对音频信号进行一级唤醒检测,以得到一级检测结果;根据一级检测结果确定音频信号是否通过一级唤醒检测;在一级检测结果表示音频信号通过一级唤醒检测的情况下,通过音频信号的声学特征对音频信号进行二级唤醒检测,以得到二级检测结果,同时通过音频信号的声学特征对音频信号进行声纹验证,以验证当前唤醒人是否为授权用户;根据二级检测结果确定音频信号是否通过二级唤醒检测;在二级检测结果表示音频信号通过二级唤醒检测的情况下,根据一级检测结果、二级检测结果和声纹验证结果,针对当前唤醒人执行对应的唤醒操作或不执行任何操作。
示例性地,方法还包括:在提取音频信号的声学特征之前,对音频信号进行语音端点检测,以去除音频信号中的静音和/或噪音信号;或者在提取音频信号的声学特征之后,对声学特征进行语音端点检测,以去除声学特征中对应静音和/噪音信号的部分。
示例性地,一级检测结果包括音频信号包含的至少一个一级唤醒音节以及每个一级唤醒音节的帧数范围;通过音频信号的声学特征对音频信号进行声纹验证,包括:将每个一级唤醒音节的帧数范围内的所有帧的声学特征对应相加并取平均值,以得到每个一级唤醒音节的声学特征;根据每个一级唤醒音节的声学特征,获得音频信号的声纹表征向量;计算音频信号的声纹表征向量与授权用户预先设置的声纹验证向量之间的相似度,以得到的声纹相似度分值,声纹相似度分值用于确定当前唤醒人是否为授权用户。
示例性地,一级检测结果包括一级检测分值,二级检测结果包括二级检测分值,声纹验证结果包括声纹相似度分值;根据一级检测结果、二级检测结果和声纹验证结果,针对当前唤醒人执行对应的唤醒操作或不执行任何操作,包括:在声纹相似度分值小于预设的声纹阈值并且二级检测分值与一级检测分值的差值大于预设的唤醒阈值的情况下,或将二级检测分值与一级检测分值的差值与声纹系数相乘,在二级检测分值与一级检测分值的差值与声纹系数的乘积大于预设的唤醒阈值的情况下,则不执行任何操作;在声纹相似度分值小于预设的声纹阈值,并且二级检测分值与一级检测分值的差值小于或等于预设的唤醒阈值的情况下,则执行非授权用户的唤醒操作;以及在声纹相似度分值大于或等于预设的声纹阈值,并且将二级检测分值与一级检测分值的差值与声纹系数相乘,在二级检测分值与一级检测分值的差值与声纹系数的乘积小于或等于预设的唤醒阈值的情况下,则执行授权用户的唤醒操作。
示例性地,根据一级检测结果、二级检测结果和声纹验证结果,针对当前唤醒人执行对应的唤醒操作或不执行任何操作,还包括:根据声纹相似度分值确定声纹系数,其中,声纹相似度分值越高,声纹系数越低。
示例性地,根据声纹相似度分值确定声纹系数,包括:根据如下公式确定声纹系数λ,
如果Scorevp0.9,则λ=0.2~0.3;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于标贝(北京)科技有限公司,未经标贝(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110461938.3/2.html,转载请声明来源钻瓜专利网。