[发明专利]一种基于多任务神经网络的多样例关键词检测方法有效

申请号：	201810180347.7	申请日：	2018-03-05
公开（公告）号：	CN108538285B	公开（公告）日：	2021-05-04
发明（设计）人：	张卫强;杨建斌;刘加	申请（专利权）人：	清华大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/14;G10L15/16
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	张文宝
地址：	100084 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于任务神经网络多样关键词检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多任务神经网络的多样例关键词检测方法，其特征在于，所述方法具体包括以下步骤：

步骤1：在多语言的数据集上训练瓶颈深度神经网络bottleneck-DNN；

步骤2：对目标数据集音频逐帧提取频带过滤fbank特征；

步骤3：利用bottleneck-DNN提取目标数据集的bottleneck特征；

所述步骤3中，将fbank特征进行前后5帧扩展输入bottleneck-DNN，以利用上下文信息，bottleneck层的输出即为bottleneck特征；

步骤4：使用训练集，利用关键词的bottleneck特征为每一个关键词，分别训练一个隐马尔科夫模型HMM，并获取关键词的bottleneck特征的帧级别状态标签，利用所有非关键词的bottleneck特征训练一个填充词模型；

所述步骤4中，关键词HMM包含多个隐状态，其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到；填充词模型只有1个状态，其帧级别状态标签直接得到；其中帧级别状态标签是采用基于GMM-HMM的EM算法强制对齐得到的，具体步骤如下：

步骤401：统计第k个关键词的平均帧数根据时长信息确定每个关键词的状态数目其中τ为每个状态持续的帧数，取为10；

步骤402：将第i个训练样例的特征o_i＝(o_i1，o_i2，...，o_it)平均分配到对应的N_k个状态上其中o_imn表示该关键词的第i个样例的第m帧分配到状态n上；

步骤403：使用所有样例的属于第n个状态的训练特征，更新其GMM模型；

步骤404：使用上一步得到的GMM模型，对样例在状态单元上重新对齐，得到似然分数；

步骤405：判断似然分数变化是否小于阈值，或迭代次数是否到达指定次数；

步骤406：如果似然分数变化小于阈值或者迭代次数达到指定次数，迭代截止；否则，返回步骤403进行下一次迭代；

步骤407：输出对齐的结果；

步骤5：设计主任务和辅助任务，利用bottleneck特征进行多任务DNN声学模型训练；

步骤6：利用步骤5中训练的多任务深度神经网络声学模型获取测试集音频的声学分数，应用维特比解码得到关键词检测结果；

所述步骤6中，解码网络采用自由循环结构。

2.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法，其特征在于，所述步骤1中，DNN包含多个隐层，其中的一个隐层称为bottleneck层，该隐层与其他隐层相比节点数少；该bottleneck层激活函数为线性，其余隐层激活函数为sigmoid函数；在多语言数据集上进行训练时，采用混合音素集方法或多任务学习方法。

3.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法，其特征在于，所述步骤5中，主任务设定为对关键词HMM状态和填充词状态进行预测，辅助任务则有多种选择：对关键词状态和填充词状态的上下文进行预测，即假设某N帧M维特征的状态标签为{s₁，s₂，...，s_N-1，s_N}，其中s₁～s_N为每一帧的标签，各为一个M维的向量，则辅助任务标签为{s₁，s₁，...，s_N-2，s_N-1}和{s₂，s₃，...，s_N，s_N}；或在辅助任务中对关键词进行整体建模，即直接将每个关键词以单状态形式对应到神经网络的输出；或将辅助任务设置为对特征所属的说话人进行分类；多任务DNN训练的具体方法如下：