[发明专利]基于联合训练方式的多文档多答案机器阅读理解系统有效
申请号: | 202010640437.7 | 申请日: | 2020-07-06 |
公开(公告)号: | CN111930887B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 孙宁;王彬;韩光洁 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/211;G06F40/284;G06N3/0442;G06N3/049;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 丁涛 |
地址: | 213022 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 联合 训练 方式 文档 答案 机器 阅读 理解 系统 | ||
1.一种基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于,所述系统包括多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解模型和答案验证模块的联合训练模块;
所述多文档排序选择模块提供了一种多文档的筛选方案,剔除无关的文章段落,选取与问题相关的段落内容作为机器阅读理解模型的输入;
所述机器阅读理解模型能够从段落内容中寻找问题的答案,该答案并不一定是单一的,而可能是具有多个的;
所述答案验证模块将机器阅读理解模型输出的多答案进行验证,将验证正确的答案进行输出;
所述机器阅读理解模型和答案验证模块的联合训练模块使用联合训练的方式,最优化联合损失函数,得出两个模型的最优化参数;
所述多文档排序选择模块能够从大量的文档中选择出与问题相关的文章,并从文章中选取与问题相关的段落,将这些段落内容作为后续机器阅读理解模型的输入;所述多文档排序选择模块系统分为文档选择子模块与段落选择子模块;多文档排序选择模块的计算步骤如下:
(2-1)将文章输入进文档选择子模块,该模块使用BM25算法与TF-IDF算法计算出问题与文档的相关性,剔除无关的文档,选择相关性最高的前k1篇文档输入段落选择子模块;
(2-2)段落选择子模块将输入的文档的拆分为段落;
(2-3)对这些段落分别使用基于强度排序与基于匹配度排序的方案进行打分,最终根据基于强度排序的打分score1和基于匹配度排序的打分score2,进行加权求和,具体公式为:
scoresum=λ1*score1+λ2*score2 (1)
其中λ1,λ2为自定义的超参数,λ1,λ2∈(0,1),且λ1+λ2=1,表示两种打分方案所占的权重;
(2-4)最后,将这些加权求和的最终分数scoresum进行排序,最终选择排名前k2个段落作为多文档排序选择模块的输出;
上述的k1,k2为自定义的超参数,用于控制选择的文档数和段落数。
2.根据权利要求1中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述的基于强度排序的打分方案的具体内容为:使用BLEU-4分数计算问句与每个段落的分数,这个总分表示了问句中的关键词在每个段落中出现的次数。
3.根据权利要求1中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述的基于匹配度排序的打分方案的具体内容为:提供了数量为N的文档,平均每个文档有K个段落,所以设Pi为段落内容,其中i是段落标号,从1到N*K,设问题为Q;将文章与问题中分割好的词语转换为各自的单词级词向量和将问题与段落的词向量输入双向LSTM网络中进行编码,得到新的编码向量和uP表示文章内容,uQ表示问题,计算公式为:
然后计算每个段落中包含问题答案的概率p(Pi|Q),公式为:
其中sim(x,y)为相似性函数,用来衡量在段落内容Pi中包含问题Q的答案的概率,使用简单的评分函数,为两个向量的点积,具体公式为:
sim(x,y)=xT*y (5)
其中x,y为两个向量,代表函数的形参;模型的损失函数具体公式为:
其中θ表示该模型可训练参数,最终根据段落中包含问题的概率进行打分,输出基于匹配度的打分分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010640437.7/1.html,转载请声明来源钻瓜专利网。