[发明专利]一种基于深度学习的抽取式机器阅读理解模型的建立方法有效
申请号: | 201811556939.0 | 申请日: | 2018-12-19 |
公开(公告)号: | CN109657246B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 陈尧钧;印鉴;高静 | 申请(专利权)人: | 中山大学;广东恒电信息科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于深度学习的抽取式机器阅读理解模型的建立方法,该方法使用卷积代替了广泛应用在机器阅读理解的LSTM、GRU等RNN的变种,不同于RNN当前时刻的计算依赖上一时刻,卷积是可以并行计算的,这使得模型不论训练还是推理速度都优于使用RNN变种的模型;在使用注意力机制捕捉关键信息时,使用到了多头注意力机制,使得对于文章这样的长文本能够捕捉所有相关的信息,进一步提升模型的准确率。 | ||
搜索关键词: | 一种 基于 深度 学习 抽取 机器 阅读 理解 模型 建立 方法 | ||
【主权项】:
1.一种基于深度学习的抽取式机器阅读理解模型的建立方法,其特征在于,包括以下步骤:S1:对文章和问题的句子进行分词;S2:为每个文章词设置一个精准匹配特征,表示该文章词是否出现在问题中,如果出现则该特征置为1,否则置为0;S3:把单词映射成词表当中对应的词向量,得到每个单词词级别的表示;S4:把单词的每个字母映射成字符表当中对应的字符向量,输入到卷积神经网络训练得到固定大小的向量,得到每个单词字符级别的表示;S5:将文章和问题的每个单词对应的词级别和字符级别的表示拼接在一起,分别输入到两层highway networks中,输出即为文章词和问题词的特征向量表示;S6:将文章和问题的词向量表示分别通过多层卷积进行处理,从而融合每个词周围的上下文信息去调整每个词的表示;S7:将S6得到的文章和问题的词向量表示通过文章‑问题注意力机制,得到每个文章词对应相关的问题词表示;S8:将S6得到的文章和问题的词向量表示通过问题‑文章多头注意力机制,得到每个问题词对应相关的文章词表示;S9:将S6得到的问题的词向量表示利用注意力机制,得到每个问题词对于整个问句表达的重要性占比,通过这个重要性占比与S8得到的每个问题词对应相关的文章词表示进行加权求和,从而得到一个与问题长度无关的向量,该向量整合了和问题相关的文章词信息;S10:将S6得到的文章词表示、S2得到的每个文章词对应的精准匹配特征、S7得到每个文章词对应相关的问题词向量、S6和S7得到的每个词向量表示对应元素相乘的结果、S6的每个文章词向量表示和S9得到的向量对应元素相乘的结果进行合并,再次输入到多层卷积进行处理,从而融合每个文章词周围的上下文信息和精准匹配特征及结合S7、S9的注意力计算结果去整合每个词的表示;S11:将S10得到的文章词向量表示通过文章‑文章多头注意力机制,得到每个文章词在全文范围内的对应相关的上下文表示;S12:将S10得到的文章词表示与S11得到的每个文章词对应相关的上下文表示进行合并,输入到多层卷积进行处理,从而融合每个词周围上下文和全局范围内的上下文去调整每个文章词的表示;S13:将S12得到的文章词表示进行线性变换后,经过softmax函数进行归一化转化为一个概率分布,该分布代表了文章中每个单词是标准答案短语第一个单词的概率,优化该概率分布,作为模型的优化目标之一,使得标准答案短语第一个单词在原文的位置对应的概率相应增大,即通过代表标准答案短语的第一个单词在原文位置的One‑hot向量和该概率分布计算交叉熵损失,得到Ls;S14:预测答案短语最后一个单词的位置需要将预测答案短语第一个单词的位置的信息考虑在内,所以对S12得到的文章词表示再一次经过多层卷积进行处理得到新的文章词表示,最后通过线性变换和softmax函数归一化得到一个概率分布,该分布代表了文章每个单词是标准答案短语最后一个单词的概率,优化该概率分布,作为模型的优化目标之一,使得标准答案短语最后一个单词在原文的位置对应的概率相应增大,即通过代表标准答案短语的最后一个单词在原文位置的One‑hot向量与该概率分布计算交叉熵损失,得到Le;S15:将S13和S14的两个优化目标相结合,即把S13的Ls和S14的Le相加,就得到损失函数,使用基于梯度下降原理的优化器来进行优化训练;S16:取S13和S14两个概率分布最大值的位置,分别对应了模型预测的答案短语的第一个单词和最后一个单词在原文中的位置,这两个位置区间的单词序列即为模型预测的答案短语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学;广东恒电信息科技股份有限公司,未经中山大学;广东恒电信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811556939.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种电子病历的语意识别方法
- 下一篇:机器学习的自定义语法实现方法及装置