[发明专利]一种基于多任务联合训练的机器阅读理解模型的使用方法有效
申请号: | 202011513956.3 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112269868B | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 李芳芳;毛星亮;林中尧;任星凯 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 | 代理人: | 黄敏华 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 联合 训练 机器 阅读 理解 模型 使用方法 | ||
1.一种基于多任务联合训练的机器阅读理解模型的使用方法,其特征在于,具体包括如下步骤:
S1:建立基于多任务学习的阅读理解模型,将阅读理解任务分为多个子任务,设计多个子模块分别进行处理,并进行多任务联合训练,其中子模块包括文本编码模块、答案抽取模块、答案分类模块和支撑句判别模块;
S2:将文本及问题输入文本编码模块,再由文本编码模块进行编码,然后输入至答案抽取模块、答案分类模块与支撑句判别模块输出结果;
S3:由答案抽取模块、答案分类模块与支撑句判别模块进行片段抽取类问题的答案、答案类型以及支撑句的输出;
采用基于TF-IDF文本相似度匹配的数据增强方法,将[文本,问题,答案]格式的数据转换为[文本,问题,答案,支撑句],训练所述阅读理解模型,具体步骤如下:
步骤一:先根据“”具有代表句子结尾的标点符号对文章进行分句,得到文章对应的句子集合;
步骤二:使用RoBERTa预训练模型将分割后的句子以及问题转化为词向量;
步骤三:将转化为词向量后的句子集合S中的每个句子与问题计算TF-IDF相似度;
(1-1)
(1-2)
其中,TF表示词频,即某个单词在某个文档中出现的频率,IDF表示逆文档频率,即某个词语在多少个文档中出现,反应某个单词的普遍程度,sim_score为根据TF-IDF计算出的语句相似度,代表文章分割后的每个句子,表示问题分割后的每个句子;
文本编码模块处理文本及问题的步骤为:
(1)将问题和文本进行拼接;
(2)使用RoBERTa预训练模型对拼接后的文本进行编码,得到文本的向量化表示,其中为文本的长度,为编码的维度;
(3)分别获取问题和文章的向量化表示,记为和,其中和分别为问题和文本的长度,为编码的维度;
(4)使用BiAttention层获取问题到文章和文章到问题的双向注意力表示:
(1-3)
为问题到文章和文章到问题的双向注意力表示,是指原始文本编码模块的编码矩阵,和是问题到文章,文章到问题两个方向的注意力编码矩阵,β是一个参数矩阵,通过双向注意力机制对问题和文章进行相互编码之后,将作为答案抽取模块、答案分类模块和支持句子判别模块的输入;
其中:答案抽取模块处理步骤如下:
1):经过文本编码模块后的输出作为全连接层的输入;
2):全连接层设置每个位置的输出为两个神经元,分别表示当前位置为答案开始与结束位置的概率,如式1-4所示,其中是答案起始位置的概率,是答案结束位置的概率,是一个可学习的随机初始化的参数矩阵;
(1-4);
答案分类模块的处理步骤如下:
A、将阅读理解任务中存在的答案分为四种类型,分别是:片段抽取、是、否、无答案,所述片段抽取类型为需要从文本中抽取语句或词组作为问题对应的答案;所述是、否类型为需要返回“是”或“否”;所述无答案类型为无法根据文章回答对应问题的情况;
B、最终答案分类模块会返回当前任务所属答案类型概率;
对答案分类模块采用四个子网络分别对答案类型进行预测,并进行联合训练,其步骤如下:
a、每个句子通过文本编码模块进行编码后会存在一个[CLS]向量,[CLS]向量用作整句话的语义表示,原始的RoBERTa预训练模型使用[CLS]对语句进行分类,本模型使用[CLS]作为全连接层的输入,进行答案的四分类,输出答案类型概率记为;
b、将文本编码的结果作为胶囊网络的输入,再将胶囊网络的输出作为全连接层的输入,得到最终的答案类型概率记为;
c、所述子网络包含两种注意力网络,第一个注意力网络,将文本编码后的向量用自注意力机制进行计算,再通过全连接层进行四分类,输出答案类型概率记为;第二个注意力网络,其通过获取到答案抽取模块中的开始与结束位置,用开始与结束位置上的词向量与文本编码的输出计算注意力权重,再输入全连接层进行分类,分类概率记为;
d、最终,答案分类模块的总概率由以上四种概率取平均得到,如式1-5所示;
(1-5)。
2.按照权利要求1所述基于多任务联合训练的机器阅读理解模型的使用方法,其中,支撑句判别模块的处理步骤如下:
a)基于相似度匹配的子网络,主要步骤如下:
根据文本分句后各句长度从文本编码模块的输出中截取各个语句对应的向量表示;
与文本编码模块的输出计算点积,重新计算每条句子的向量表示,得到,其中为文本长度,为文本中包含语句总数量,为编码后维度;
通过最大池化层提取特征;
通过全连接层进行二分类,得到句子为支撑句的概率;
b)基于注意力机制的子网络,主要步骤如下:
步骤一:获取答案开始与结束位置的两个词向量,分别与文本编码模块的输出计算点积,得到两个向量和;
步骤二:将和进行拼接;
步骤三:通过全连接层进行二分类,得到是否是支撑句的概率;
最终支撑句判别模块的概率由a),b)两种方法所得概率求平均得到,如式1-6所示;
(1-6),依据所求概率找到答案在文本中依赖的语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011513956.3/1.html,转载请声明来源钻瓜专利网。