[发明专利]一种基于多任务神经网络的多样例关键词检测方法有效
申请号: | 201810180347.7 | 申请日: | 2018-03-05 |
公开(公告)号: | CN108538285B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 张卫强;杨建斌;刘加 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G10L15/16 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 张文宝 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 神经网络 多样 关键词 检测 方法 | ||
1.一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈深度神经网络bottleneck-DNN;
步骤2:对目标数据集音频逐帧提取频带过滤fbank特征;
步骤3:利用bottleneck-DNN提取目标数据集的bottleneck特征;
所述步骤3中,将fbank特征进行前后5帧扩展输入bottleneck-DNN,以利用上下文信息,bottleneck层的输出即为bottleneck特征;
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型HMM,并获取关键词的bottleneck特征的帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;
所述步骤4中,关键词HMM包含多个隐状态,其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到;填充词模型只有1个状态,其帧级别状态标签直接得到;其中帧级别状态标签是采用基于GMM-HMM的EM算法强制对齐得到的,具体步骤如下:
步骤401:统计第k个关键词的平均帧数根据时长信息确定每个关键词的状态数目其中τ为每个状态持续的帧数,取为10;
步骤402:将第i个训练样例的特征oi=(oi1,oi2,...,oit)平均分配到对应的Nk个状态上其中oimn表示该关键词的第i个样例的第m帧分配到状态n上;
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型;
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数;
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数;
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止;否则,返回步骤403进行下一次迭代;
步骤407:输出对齐的结果;
步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务DNN声学模型训练;
步骤6:利用步骤5中训练的多任务深度神经网络声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果;
所述步骤6中,解码网络采用自由循环结构。
2.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤1中,DNN包含多个隐层,其中的一个隐层称为bottleneck层,该隐层与其他隐层相比节点数少;该bottleneck层激活函数为线性,其余隐层激活函数为sigmoid函数;在多语言数据集上进行训练时,采用混合音素集方法或多任务学习方法。
3.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤5中,主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},其中s1~sN为每一帧的标签,各为一个M维的向量,则辅助任务标签为{s1,s1,...,sN-2,sN-1}和{s2,s3,...,sN,sN};或在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;或将辅助任务设置为对特征所属的说话人进行分类;多任务DNN训练的具体方法如下:
步骤501:设定对关键词HMM状态和填充词状态进行预测为主任务A,辅助任务为B;
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ;
步骤503:定义主任务A的目标函数为交叉熵函数其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数;相应地,定义辅助任务B的目标函数为其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数;
步骤504:DNN前馈计算与
步骤505:联合优化FA(θ)与FB(θ)更新DNN参数,具体优化目标函数为其中λ为与辅助任务B绑定的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810180347.7/1.html,转载请声明来源钻瓜专利网。