[发明专利]基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法有效

申请号：	201510122982.6	申请日：	2015-03-19
公开（公告）号：	CN104700828B	公开（公告）日：	2018-01-12
发明（设计）人：	杨毅;孙甲松	申请（专利权）人：	清华大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/16
代理公司：	西安智大知识产权代理事务所61215	代理人：	贾玉健
地址：	100084 北京市海淀区1***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法，通过在深度长短期记忆循环神经网络声学模型中增加注意门单元，来表征听觉皮层神经元的瞬时功能改变，注意门单元与其他门单元不同之处在于，其他门单元与时间序列一一对应，而注意门单元体现的是短期可塑性效应，因此在时间序列上存在间隔；通过对包含Cross‑talk噪声的大量语音数据进行训练获得的上述神经网络声学模型，可以实现对Cross‑talk噪声的鲁棒特征提取和鲁棒声学模型的构建，通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的；该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。
搜索关键词：	基于选择性注意原理深度短期记忆循环神经网络声学模型构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法，包括如下步骤：第一步，构建基于选择性注意原理的深度长短期记忆循环神经网络从输入到隐藏层定义为一个长短期记忆循环神经网络，深度指的是每个长短期记忆循环神经网络的输出为下一个长短期记忆循环神经网络的输入，如此重复，最后一个长短期记忆循环神经网络的输出作为整个系统的输出；在每一个长短期记忆循环神经网络中，语音信号xt为t时刻的输入，xt‑1为t‑1时刻的输入，以此类推，总时间长度上的输入为x＝[x1,...,xT]其中t∈[1,T]，T为语音信号的总时间长度；t时刻的长短期记忆循环神经网络由注意门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成，t‑1时刻的长短期记忆循环神经网络由输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器组成；总时间长度上的隐藏层输出为y＝[y1,...,yT]；在t∈[1,T]时刻的参数按照如下公式计算：Gatten_t＝sigmoid(Waxxt+Wammt‑1+WacCellt‑1+ba)Ginput_t＝sigmoid(WiaGatten_t+Wimmt‑1+WicCellt‑1+bi)Gforget_t＝sigmoid(WfaGatten_t+Wfmmt‑1+WfcCellt‑1+bf)Cellt＝Gforget_t⊙Cellt‑1+Ginput_t⊙tanh(WcaGatten_t+Wcmmt‑1+bc)Goutput_t＝sigmoid(WoaGatten_t+Wommt‑1+WocCellt‑1+bo)mt＝Goutput_t⊙tanh(Cellt)yt＝softmaxk(Wymmt+by)其中Gatten_t为t时刻注意门的输出，Ginput_t为t时刻输入门的输出，Gforget_t为t时刻遗忘门的输出，Cellt为t时刻记忆细胞的输出，Goutput_t为t时刻输出门的输出，mt为t时刻隐藏层的输入，yt为t时刻的输出；xt为t时刻的输入，mt‑1为t‑1时刻隐藏层的输入，Cellt‑1为t‑1时刻记忆细胞的输出；Wax为t时刻注意门a与t时刻输入x之间的权重，Wam为t时刻注意门a与t‑1时刻隐藏层输入m之间的权重，Wac为t时刻注意门a与t‑1时刻记忆细胞c之间的权重，Wia为t时刻输入门i与t时刻注意门a之间的权重，Wim为t时刻输入门i与t‑1时刻隐藏层输入m之间的权重，Wic为t时刻输入门i与t‑1时刻记忆细胞c之间的权重，Wfa为t时刻遗忘门f与t时刻注意门a之间的权重，Wfm为t时刻遗忘门f与t‑1时刻隐藏层输入m之间的权重，Wfc为t时刻遗忘门f与t‑1时刻记忆细胞c之间的权重，Wca为t时刻记忆细胞c与t时刻注意门a之间的权重，Wcm为t时刻记忆细胞c与t‑1时刻隐藏层输入m之间的权重，Woa为t时刻输出门o与t时刻注意门a之间的权重，Wom为t时刻输出门o与t‑1时刻隐藏层输入m之间的权重，Woc为t时刻输出门o与t‑1时刻记忆细胞c之间的权重；ba为注意门a的偏差量，bi为输入门i的偏差量，bf为遗忘门f的偏差量，bc为记忆细胞c的偏差量，bo为输出门o的偏差量，by为输出y的偏差量，不同的b代表不同的偏差量；且有其中xk表示第k∈[1,K]个softmax函数的输入，l∈[1,K]，表示对全部求和；⊙代表矩阵元素相乘；第二步，构建基于选择性注意原理的深度长短期记忆循环神经网络声学模型在第一步的基础上，每间隔s时刻对应的深度长短期记忆循环神经网络存在注意门，其他时刻的深度长短期记忆循环神经网络不存在注意门，即，基于选择性注意原理的深度长短期记忆循环神经网络声学模型由间隔存在注意门的深度长短期记忆循环神经网络组成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510122982.6/，转载请声明来源钻瓜专利网。

上一篇：一种语音端点检测方法及装置
下一篇：一种移位寄存器、栅极驱动电路、显示面板及显示装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法有效

专利文献下载