[发明专利]语音唤醒方法、装置、电子设备及存储介质有效
申请号: | 201910846703.9 | 申请日: | 2019-09-06 |
公开(公告)号: | CN110570857B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 陈孝良;焦伟;冯大航 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/08;G10L19/00;G10L25/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 方丁一 |
地址: | 100086 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 唤醒 方法 装置 电子设备 存储 介质 | ||
一种语音唤醒,应用于语音交互技术领域,包括:构建WFST解码图,该WFST解码图包括唤醒词解码图和基本解码图,当接收到待解码的语音信号后,分别利用该唤醒词解码图和该基本解码图对待解码的语音信号进行解码,得到待解码的语音信号分别基于该唤醒词解码图的第一得分和基于该基本解码图的第二得分,利用第一得分与第二得分,判断是否进入唤醒状态。本申请还公开了一种语音唤醒装置、电子设备及存储介质。可提高语音唤醒识别效果,有效避免仅使用基本解码图进行语音识别导致的唤醒准确率低的技术问题,同时,采用唤醒词解码图可支持多个唤醒词唤醒。
技术领域
本申请涉及语音交互技术领域,尤其涉及一种语音唤醒方法、装置、电子设备及存储介质。
背景技术
随着智能交互技术的快速发展和市场需求的不断扩展,语音唤醒技术在近年来取得长足发展,至今已经在多个领域中得到广泛的应用。语音唤醒技术,是对输入的语音信号进行检测,确定语音信号中是否包含唤醒词。利用语音唤醒技术可以实现众多应用场景中的智能语音交互,例如智能音箱,车载、智能家居控制等。
现有技术中,实现语音唤醒的方法通常是使用深度神经网络训练一个二分类的神经网络,将待识别的语音信号输入该二分类的神经网络,由该二分类的神经网络返回判断结果,即这段音频是否包括唤醒词,根据判断结果确定是否进行唤醒。采用这种方案,首先二分类的神经网络训练时间长,且二分类的神经网络建模粒度很大,识别效果难以保证,同时一个神经网络只支持一个唤醒词,如果换一个唤醒词的话还需要重新开始训练一个新的二分类的神经网络。
发明内容
本申请的主要目的在于提供一种语音唤醒方法、装置、电子设备及存储介质,旨在解决现有技术中语音唤醒识别效果不佳,无法同时支持多个唤醒词的技术问题。
为实现上述目的,本申请实施例第一方面提供一种语音唤醒方法,包括:
构建WFST解码图,所述WFST解码图包括唤醒词解码图和基本解码图;
当接收到待解码的语音信号后,分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码,得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分;
利用所述第一得分与所述第二得分,判断是否进入唤醒状态。
进一步地,所述分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码,得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分包括:
从所述待解码的语音信号中获取当前语音帧;
提取所述当前语音帧的声学特征;
将所述声学特征输入至预先构建的声学模型,得到所述当前语音帧内各声学单元的后验概率;
遍历所述唤醒词解码图和所述基本解码图中所有活跃节点的出边;
获取所述出边的输入标签对应的声学单元对应的后验概率,将所述后验概率表示为所述出边的分数;
将所述出边的分数和所述出边对应的源节点上的分数进行累计,得到累计分数,将所述累计分数作为所述出边的到达节点的分数;
判断所述待解码的语音信号是否已到达最后语音帧;
若否,则将所述待解码的语音信号的下一帧作为当前语音帧,将当前的活跃节点和所述当前的活跃节点的出边的到达节点作为所述当前语音帧的活跃节点,执行所述提取所述当前语音帧的声学特征的步骤;
若是,则将所述唤醒词解码图的终止节点上的累计分数作为所述第一得分,以及,将所述基本解码图的终止节点上的累计分数作为所述第二得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910846703.9/2.html,转载请声明来源钻瓜专利网。