[发明专利]语音唤醒方法、装置、电子设备及存储介质有效

申请号：	201910846703.9	申请日：	2019-09-06
公开（公告）号：	CN110570857B	公开（公告）日：	2020-09-15
发明（设计）人：	陈孝良;焦伟;冯大航	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/08;G10L19/00;G10L25/30
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	方丁一
地址：	100086 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音唤醒方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种语音唤醒，应用于语音交互技术领域，包括：构建WFST解码图，该WFST解码图包括唤醒词解码图和基本解码图，当接收到待解码的语音信号后，分别利用该唤醒词解码图和该基本解码图对待解码的语音信号进行解码，得到待解码的语音信号分别基于该唤醒词解码图的第一得分和基于该基本解码图的第二得分，利用第一得分与第二得分，判断是否进入唤醒状态。本申请还公开了一种语音唤醒装置、电子设备及存储介质。可提高语音唤醒识别效果，有效避免仅使用基本解码图进行语音识别导致的唤醒准确率低的技术问题，同时，采用唤醒词解码图可支持多个唤醒词唤醒。

技术领域

本申请涉及语音交互技术领域，尤其涉及一种语音唤醒方法、装置、电子设备及存储介质。

背景技术

随着智能交互技术的快速发展和市场需求的不断扩展，语音唤醒技术在近年来取得长足发展，至今已经在多个领域中得到广泛的应用。语音唤醒技术，是对输入的语音信号进行检测，确定语音信号中是否包含唤醒词。利用语音唤醒技术可以实现众多应用场景中的智能语音交互，例如智能音箱，车载、智能家居控制等。

现有技术中，实现语音唤醒的方法通常是使用深度神经网络训练一个二分类的神经网络，将待识别的语音信号输入该二分类的神经网络，由该二分类的神经网络返回判断结果，即这段音频是否包括唤醒词，根据判断结果确定是否进行唤醒。采用这种方案，首先二分类的神经网络训练时间长，且二分类的神经网络建模粒度很大，识别效果难以保证，同时一个神经网络只支持一个唤醒词，如果换一个唤醒词的话还需要重新开始训练一个新的二分类的神经网络。

发明内容

本申请的主要目的在于提供一种语音唤醒方法、装置、电子设备及存储介质，旨在解决现有技术中语音唤醒识别效果不佳，无法同时支持多个唤醒词的技术问题。

为实现上述目的，本申请实施例第一方面提供一种语音唤醒方法，包括：

构建WFST解码图，所述WFST解码图包括唤醒词解码图和基本解码图；

当接收到待解码的语音信号后，分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码，得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分；

利用所述第一得分与所述第二得分，判断是否进入唤醒状态。

进一步地，所述分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码，得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分包括：

从所述待解码的语音信号中获取当前语音帧；

提取所述当前语音帧的声学特征；

将所述声学特征输入至预先构建的声学模型，得到所述当前语音帧内各声学单元的后验概率；

遍历所述唤醒词解码图和所述基本解码图中所有活跃节点的出边；

获取所述出边的输入标签对应的声学单元对应的后验概率，将所述后验概率表示为所述出边的分数；