[发明专利]一种基于多头注意力机制和动态迭代的机器阅读理解方法在审

专利信息
申请号: 201811365160.0 申请日: 2018-11-16
公开(公告)号: CN109492227A 公开(公告)日: 2019-03-19
发明(设计)人: 李丽双;张星熠;周安桥;周瑜辉 申请(专利权)人: 大连理工大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 大连理工大学专利中心 21200 代理人: 温福雪;刘秋彤
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于多头注意力机制和动态迭代的机器阅读理解方法,属于自然语言处理领域。机器阅读理解模型构建方法如下:构建文章和问题编码层;构建基于双向注意力流的循环神经网络;构建自注意力层以及基于动态迭代解码器预测答案输出。本发明方法可以针对机器阅读理解任务文本中的问题进行答案预测;本发明建立了一个新的端到端的神经网络模型,为机器阅读理解任务的探索提供了一种新思路。
搜索关键词: 动态迭代 阅读 构建 注意力机制 注意力 多头 神经网络模型 循环神经网络 自然语言处理 解码器 答案 模型构建 问题编码 预测 文本 输出 探索
【主权项】:
1.一种基于多头注意力机制和动态迭代的机器阅读理解方法,其特征在于,步骤如下:(一)对文章和问题进行编码首先,进行语料预处理,借助分词工具Spacy对每个文章和问题进行分词处理,然后构建问题和文章的嵌入层及编码层;所述构建问题和文章的嵌入层包括字符嵌入和词嵌入两部分:(1)字符嵌入:将单词的每个字符映射到固定向量空间;设分别代表每一个样本中单词数为n的文章和单词数为m的问题中单词的字符序列,将它们输入到双向循环神经网络中,得到最终的隐藏层状态表征单词的字符嵌入(2)词嵌入:将每个单词映射到固定向量空间;使用预先训练好的词向量模型GloVe来获取每个单词的固定词嵌入将字符嵌入和词嵌入拼接分别得到文章和问题表示对于问题Q∈Rd×m和文章P∈Rd×n,序列中的每一个词都被转换成d维的向量;所述构建问题和文章的编码层:经过字符嵌入和词嵌入,将文章和问题表示分别输入到由GRU组成的双向循环神经网络编码器,得到文章和问题编码层的语义表示H∈R2d×n和U∈R2d×m;(二)构建基于双向注意力流的循环神经网络构建双向注意力流层的过程包括计算相似性矩阵、融合输入向量两个部分:(1)计算相似性矩阵:首先,双向注意力使用缩放点积函数计算文章语义H∈R2d×n和问题语义U∈R2d×m之间的相似性矩阵S∈Rn×m:Stj=α(H,U)∈R   (1)其中Stj表示第t个文章单词和第j个问题单词之间的相似性,α函数定义为:其中w(s)t∈R6d,为可训练权值矩阵,表示逐元素积,“;”表示向量拼接,a和c表示不同的矩阵;然后,共享相似矩阵S,计算从文章到问题以及从问题到文章两个方向的注意力权重,具体过程是应用softmax函数归一化S的每一列,然后计算文章到问题的注意力A:at=softmax(St:)∈Rm   (3)其中,at表示文章中第t个词对问题的注意力权重,St:表示S的第t个行向量,A:t表示A的第t个列向量,atk表示at的第k项,U:k表示U的第k个列向量;之后,应用softmax函数归一化S的每一列最大值,并计算问题到文章的注意力B:b=softmax(maxcol(S))∈Rn   (5)B:k=∑bkH:k∈R2d   (6)其中,b表示文章单词注意力权重,maxcol即按列求最大值,B:k表示B的第k个列向量,bk表示文章第k个单词的注意力权重,H:k表示H的第k个列向量;(2)融合输入向量:联合H,A,B产生双向注意力流层输出:其中,G中的每一列代表了一个融合问题全部语义信息的文章词向量;β是融合H,A,B三个输入向量的可训练函数,而dG是β函数的输出维度;β函数是任意可训练的神经网络,取β函数为简单拼接,则双向注意力流层输出为:将双向注意力流层输出G输入由GRU构成的双向循环神经网络,从而获取融合了问题信息但文章语义信息有所缺失的文章表示(三)构建自注意力层自注意力层结合双向循环神经网络和自注意力,利用缩放点积式的多头注意力机制,将文章表示均分成h个部分,并行化地计算各部分的注意力权重,动态地在通过的每个文章词向量中收集整个文章中的信息;计算各部分的注意力权重的过程为:headi=Attention(QWiQ,KWiK,VWiV)   (10)ct=MultiHead(Q,K,V)=Concat(head1,…,headh)WO   (11)其中,WO,WQ,WK和WV均为权值矩阵;Q、K、V分别代表Attetion函数中的查询、键、值,分别是编码器的输出和解码器中的输入;dk为查询Q和键K的维度,headi为文章第i部分,ct为多头注意力机制最终输出;双向循环神经网络将拼接后的向量编码至新的向量表示其中,表示自注意力层输出并对应于文章第t个词的语义表示,为双向注意力层输出的文章表示;进而,经过自注意力层获得文章语义表示(四)基于动态迭代解码器预测答案输出利用动态迭代解码器,将模型预测作为初次预测结果继续输入到动态迭代解码器中,通过动态迭代的方式反复迭代预测答案位置,直到预测结果不再变化或迭代次数超过阈值,最终确定答案位置;迭代过程中允许模型跳出初始局部最优答案;自注意力层文章表示某一时间步骤t对应迭代过程r,在第r次迭代过程中,设hr,xr,和er分别表示LSTM状态、起始位置的评估值和终止位置的评估值;则LSTM隐藏层状态为:其中,分别表示前一次迭代过程中起始位置的评估值和终止位置的评估值;给定当前隐藏层状态值hr,前一次迭代过程起始位置的评估值和终止位置的评估值获得当前起始位置的评估值和终止位置的评估值:其中,αt和βt分别表示文章中第t个词作为答案跨度起始位置和终止位置的评估分数;利用两个结构相同但不共享参数的神经网络分别计算αt和βt,此处选择结合了Maxout Networks和Highway Networks的Highway Maxout Network计算αt:通过另一个HMNend模型,使用与αt相同的计算方式计算终止位置的评估分数βt;HMN模型的计算公式如下:其中,v∈Rl,参数W(D)∈Rl×5l;W(1)∈Rp×l×3l,W(2)∈Rp×l×l和W(3)∈Rp×1×2l为权值矩阵,b(1)∈Rp×l,b(2)∈Rp×l和b(3)∈Rp为偏置;p是每个maxout层作池化操作的尺寸大小;max操作在张量的第一个维度上计算最大值;在第一个maxout层和最后输出的maxout层之间存在highway连接;起始位置概率分布X=[x1,x2…,xn]T和终止位置概率分布E=[e1,e2,…,en]T联合乘积得到答案分布矩阵C,矩阵中任意元素Cyz=xyez;答案起始位置y和终止位置z满足y≤z,检索上三角矩阵中概率最大值的行列索引,输出最终答案预测范围。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811365160.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top