[发明专利]一种基于多任务神经网络的多样例关键词检测方法有效

专利信息
申请号: 201810180347.7 申请日: 2018-03-05
公开(公告)号: CN108538285B 公开(公告)日: 2021-05-04
发明(设计)人: 张卫强;杨建斌;刘加 申请(专利权)人: 清华大学
主分类号: G10L15/02 分类号: G10L15/02;G10L15/06;G10L15/14;G10L15/16
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 张文宝
地址: 100084 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 任务 神经网络 多样 关键词 检测 方法
【权利要求书】:

1.一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:

步骤1:在多语言的数据集上训练瓶颈深度神经网络bottleneck-DNN;

步骤2:对目标数据集音频逐帧提取频带过滤fbank特征;

步骤3:利用bottleneck-DNN提取目标数据集的bottleneck特征;

所述步骤3中,将fbank特征进行前后5帧扩展输入bottleneck-DNN,以利用上下文信息,bottleneck层的输出即为bottleneck特征;

步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型HMM,并获取关键词的bottleneck特征的帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;

所述步骤4中,关键词HMM包含多个隐状态,其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到;填充词模型只有1个状态,其帧级别状态标签直接得到;其中帧级别状态标签是采用基于GMM-HMM的EM算法强制对齐得到的,具体步骤如下:

步骤401:统计第k个关键词的平均帧数根据时长信息确定每个关键词的状态数目其中τ为每个状态持续的帧数,取为10;

步骤402:将第i个训练样例的特征oi=(oi1,oi2,...,oit)平均分配到对应的Nk个状态上其中oimn表示该关键词的第i个样例的第m帧分配到状态n上;

步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型;

步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数;

步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数;

步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止;否则,返回步骤403进行下一次迭代;

步骤407:输出对齐的结果;

步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务DNN声学模型训练;

步骤6:利用步骤5中训练的多任务深度神经网络声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果;

所述步骤6中,解码网络采用自由循环结构。

2.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤1中,DNN包含多个隐层,其中的一个隐层称为bottleneck层,该隐层与其他隐层相比节点数少;该bottleneck层激活函数为线性,其余隐层激活函数为sigmoid函数;在多语言数据集上进行训练时,采用混合音素集方法或多任务学习方法。

3.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤5中,主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},其中s1~sN为每一帧的标签,各为一个M维的向量,则辅助任务标签为{s1,s1,...,sN-2,sN-1}和{s2,s3,...,sN,sN};或在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;或将辅助任务设置为对特征所属的说话人进行分类;多任务DNN训练的具体方法如下:

步骤501:设定对关键词HMM状态和填充词状态进行预测为主任务A,辅助任务为B;

步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ;

步骤503:定义主任务A的目标函数为交叉熵函数其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数;相应地,定义辅助任务B的目标函数为其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数;

步骤504:DNN前馈计算与

步骤505:联合优化FA(θ)与FB(θ)更新DNN参数,具体优化目标函数为其中λ为与辅助任务B绑定的权重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810180347.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top