[发明专利]一种语音激活检测方法及装置有效
申请号: | 201610886934.9 | 申请日: | 2016-10-11 |
公开(公告)号: | CN107919116B | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | 范利春;朱磊 | 申请(专利权)人: | 芋头科技(杭州)有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/16;G10L25/51 |
代理公司: | 北京中原华和知识产权代理有限责任公司 11019 | 代理人: | 寿宁 |
地址: | 310000 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 激活 检测 方法 装置 | ||
1.一种语音激活检测方法,其特征在于,应用于对设置有激活词的语音识别设备进行激活时的语音检测,包括以下步骤:
步骤S1,对待测语音数据进行端点检测,以获取包含语音信号的语音数据;
步骤S2,利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率;
步骤S3,对所述三音子后验概率进行流式动态规划,以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分;
步骤S4,将所述路径得分与预先设定的第一阈值进行比较:
若所述路径得分小于所述第一阈值,则判断所述包含语音信号的语音数据为非激活语音,随后退出;
步骤S5,进行回溯,找到所述包含语音信号的语音数据的起始位置,并根据所述起始位置获取语音片段;
步骤S6,利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理,并根据处理结果判断是否激活所述语音识别设备。
2.如权利要求1所述的语音激活检测方法,其特征在于,所述步骤S6中,根据处理结果判断是否激活所述语音识别设备的判断步骤具体包括:将所述处理结果与预先设定的第二阈值进行比较,并在所述处理结果大于所述第二阈值时激活所述设备。
3.如权利要求1所述的语音激活检测方法,其特征在于,所述端点检测为基于短时能量、音高或神经网络的端点检测。
4.如权利要求1所述的语音激活检测方法,其特征在于,所述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。
5.如权利要求1所述的语音激活检测方法,其特征在于,关联于所述包含语音信号的语音数据的三音子后验概率为一声学得分矩阵,所述声学得分矩阵包括所述包含语音信号的语音数据的每一帧语音在所述激活词所包含的三音子上的得分。
6.如权利要求1所述的语音激活检测方法,其特征在于,所述语音片段为只包括所述激活词的语音片段。
7.如权利要求1所述的语音激活检测方法,其特征在于,所述双向循环神经网络为BLSTM循环神经网络。
8.如权利要求1所述的语音激活检测方法,其特征在于,所述步骤S6中,预先训练形成所述双向循环神经网络的训练步骤包括:
步骤S61,对包含激活词的语音进行处理以获取只包含激活词的语音片段;
步骤S62,利用所述只包含激活词的语音片段对所述双向循环神经网络进行训练。
9.一种语音激活检测装置,其特征在于,应用于设置有激活词的语音识别设备上,以在对所述语音识别设备进行激活时进行语音检测,包括:
端点检测模块,对待测语音数据进行端点检测,以获取包含语音信号的语音数据;
声学打分模块,与所述端点检测模块连接,以利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率;
动态规划模块,与所述声学打分模块连接,对所述三音子后验概率进行流式动态规划,以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分;
比较模块,与所述动态规划模块连接,且所述比较模块中预先设定有第一阈值,所述比较模块将所述路径得分与预先设定的第一阈值进行比较,并根据比较结果判断所述包含语音信号的语音数据是否为激活语音;
回溯模块,与所述比较模块连接,以在所述比较结果判断所述包含语音信号的语音数据为激活语音时进行回溯,找到所述包含语音信号的语音数据的起始位置,并根据所述起始位置获取语音片段;
处理比较模块,与所述回溯模块连接,并包括预先训练形成的双向循环神经网络,以利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理,并根据处理结果判断是否激活所述语音识别设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芋头科技(杭州)有限公司,未经芋头科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610886934.9/1.html,转载请声明来源钻瓜专利网。