[发明专利]一种基于迭代式筛选和预训练增强的机器阅读理解方法在审
申请号: | 202210264639.5 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114691827A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 杨育彬;雷伟俊;李昕宜 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06N5/04 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210008 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迭代式 筛选 训练 增强 机器 阅读 理解 方法 | ||
1.一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,包括以下步骤:
步骤1,使用HotpotQA数据集训练相关文档模型,以是否为支撑文档作为标签并采用等比采样策略获取训练正负样本;
步骤2,使用预训练模型微调分类网络并以问题和候选文档拼接的方式对文档相关性进行判别,得到单步相关文档筛选器;
步骤3,使用HotpotQA数据集中未被单步相关文档筛选器标记的相关文档作为正样本,并采样得到样本均衡的正负样本;
步骤4,训练一个新的预训练模型分类网络,以问题、单步相关文档和候选文档的方式对文档相关性进行判别,得到多步相关文档筛选器;
步骤5,使用单步抽取式阅读理解数据集SQuAD作为增强数据进行阅读器训练,得到一个预训练增强的阅读器;
步骤6,使用步骤2中得到的单步相关文档筛选器和步骤4中得到的多步相关文档筛选器从HotpotQA数据集中得到预测的候选文档,然后与问题拼接得到多步阅读理解训练样本;
步骤7,使用步骤5中得到的阅读器在多步阅读理解训练样本上进行答案抽取和支撑句判别多任务学习,提升阅读器模型效率及效果。
2.根据权利要求1所述的一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,步骤1包括:
根据给定的数据集,将包含支撑句的文档标记为支撑文档,不包含支撑句的文档标记为无关文档;该数据集为两步推理问答任务,原始正负样本比例为4:1,该分布不利于模型的训练,即存在样本不平衡问题,将负样本随机丢弃3/4得到样本均衡的训练样本。
3.根据权利要求2所述的一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,步骤2包括:
步骤2-1,将问题文档进行向量表征,训练过程中,将问题文档的最大长度设置为512,然后将问题文档对输入基于生成判别网络训练的预训练模型ELECTRA-large中进行编码,得到问题文档编码维度为[12,512,1024]的向量表征,其中12为小批量训练批量处理大小,512为设置的训练数据最大长度,1024为单个词的表征维度;
步骤2-2,使用[CLS]+question+[SEP]+document+[SEP]方式,其中[CLS]为句对表征的开始标识,question表示问题,[SEP]为问题和文档之间的分隔符或结束标识,document为文档内容;对输入的问题文档进行拼接,然后计算每个候选文档d和问题q的相关性P(d|q),训练过程损失函数计算过程如下:
其中,qi为数据集中的第i个问题,dij为第i个问题的第j个候选文档,lij为问题文档对(qi,dij)的标签,N为问题的数量,M为候选文档的数量;
步骤2-3,对于给定问题,根据极大相关概率值得到单步相关文档pi1,计算过程为pi1=argmaxjP(dij|qi)。
4.根据权利要求3所述的一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,步骤3包括:
将步骤2中得到的单步相关文档筛选器对单步相关问题进行筛选,从HotpotQA数集选择非单步相关文档的相关文档作为正样本,将正负样本采样到1:1得到训练多步相关文档所需的训练样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210264639.5/1.html,转载请声明来源钻瓜专利网。