[发明专利]一种语音激活检测方法及装置有效

申请号：	201610886934.9	申请日：	2016-10-11
公开（公告）号：	CN107919116B	公开（公告）日：	2019-09-13
发明（设计）人：	范利春;朱磊	申请（专利权）人：	芋头科技（杭州）有限公司
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/16;G10L25/51
代理公司：	北京中原华和知识产权代理有限责任公司 11019	代理人：	寿宁
地址：	310000 浙江省杭州市余杭区***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音激活检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音识别技术领域，尤其涉及一种语音激活检测方法及装置，通过采用两次激活检测的方法，将第一次激活判断中取到的语音片段输入BLSTM循环神经网络，通过对整条语音的所有帧进行处理，最终判定是否激活语音识别设备。在两次激活确认中，第一次激活的阈值可以设置适当宽松，以保证较高的检出率；第二次激活确认由于已知起始点，相对更加准确，两次激活检测能够同时降低误激活和漏激活，即有效降低激活的等错误率，从而更加有效的保证激活的性能。

技术领域

本发明涉及语音识别领域，尤其涉及一种利用双向循环神经网络进行二次确认的语音激活检测方法及装置。

背景技术

很多语音识别设备需要语音激活之后才能够拾音进而进行识别。语音识别设备激活之后才进行拾音一来是为了降低设备功耗，二来是为了减少不需要进行识别的语音进入语音识别流程，进而带来不必要的响应。近场语音识别环境中，比如手机端的语音识别，可以采用触摸或按键等方式进入拾音状态。在远场识别中，或是近场识别但不方便用手操作的时候，利用语音对设备进行激活使设备进入拾音状态就变得不可或缺。语音激活通常是先设定激活词，然后对设备说出激活词，设备被唤醒之后进入拾音状态。

语音激活最简单直观的方法是利用语音识别的方法，把激活的语音送入语音识别器进行识别，如果识别结果是激活词或者包含激活词，那么设备激活。实际上，只需要对激活语音进行声学打分，计算在设定激活词上的声学得分即可，同时还可以根据得分设定接受和拒绝的阈值；然而阈值是非常难于控制的，这是因为阈值设定太低会带来很多的误激活，阈值设定太高则使得语音识别设备难以被激活。这种现象对于较短的激活词尤其严重。

如何找到一种同时降低误激活和降低漏激活（即降低激活的等错误率）的方法成为本领域技术人员致力于研究的方向。

发明内容

针对上述存在的问题，本发明公开一种语音激活检测方法，其中，应用于对设置有激活词的语音识别设备进行激活时的语音检测，包括以下步骤：

步骤S1，对待测语音数据进行端点检测，以获取包含语音信号的语音数据；

步骤S2，利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率；

步骤S3，对所述三音子后验概率进行流式动态规划，以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分；

步骤S4，将所述路径得分与预先设定的第一阈值进行比较：

若所述路径得分小于所述第一阈值，则判断所述包含语音信号的语音数据为非激活语音，随后退出；

步骤S5，进行回溯，找到所述包含语音信号的语音数据的起始位置，并根据所述起始位置获取语音片段；

步骤S6，利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理，并根据处理结果判断是否激活所述语音识别设备。

上述的语音激活检测方法，其中，所述步骤S6中，根据处理结果判断是否激活所述语音识别设备的判断步骤具体包括：将所述处理结果与预先设定的第二阈值进行比较，并在所述处理结果大于所述第二阈值时激活所述设备。

上述的语音激活检测方法，其中，所述端点检测为基于短时能量、音高或神经网络的端点检测。