[发明专利]基于语义的机器阅读理解的候选答案筛选方法和系统有效
申请号: | 201910213718.1 | 申请日: | 2019-03-20 |
公开(公告)号: | CN110096699B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 赵淦森;王剑飞;刘学枫;王锡亮;周东宜;莫泽枫 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/194 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510631 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 机器 阅读 理解 候选 答案 筛选 方法 系统 | ||
1.基于语义的机器阅读理解的候选答案筛选方法,其特征在于:包括以下步骤:
根据答案从文档中筛选出文档对应的候选答案片段;
根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段;
根据语义相似性和答案从所述文档中获取候选答案文档,并计算获得最优候选答案片段在候选答案文档中的位置信息,所述候选答案文档和所述位置信息为机器阅读理解模型训练阶段的输入值;
所述根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段这一步骤,其具体包括:
将每个候选答案片段分别与答案集做第一处理,从而得到候选答案片段对应的平均相似度;
取所有候选答案片段中平均相似度最大的候选答案片段作为最优候选答案片段;
所述第一处理具体为:将候选答案片段与答案集的答案输入至语义相似性模型中,从而计算获取候选答案片段关于所有答案的语义相似度;再对候选答案片段关于所有答案的语义相似度求平均值得到候选答案片段对应的平均相似度;
所述根据语义相似性和答案从所述文档中获取候选答案文档这一步骤,其具体包括:
从所有文档中筛选出第一文档,再将第二文档与答案集做第二处理,从而获得各文档对应的平均相似度,所述第一文档为最优候选答案片段对应的文档,所述第二文档为从所有文档中筛选好第一文档后剩下的文档;按照所述获得的平均相似度对所述第二文档进行排序,并将第一文档和排序后的第二文档拼接成一个文档作为总文档;
从所述总文档的起始位置开始截取满足机器阅读理解模型的最大输入长度的片段作为候选答案文档;
所述第二处理具体为:根据第二预设条件从每个文档中筛选出若干个文档片段,再将筛选出的每个文档片段和答案集中的答案输入语义相似性模型中,从而计算获得每个文档片段关于所有答案的语义相似度,接着对每个文档片段关于所有答案的语义相似度进行求和运算得到每个文档片段对应的片段相似度;然后对所有文档片段的片段相似度求平均值,从而获得文档对应的平均相似度。
2.根据权利要求1所述的基于语义的机器阅读理解的候选答案筛选方法,其特征在于:所述根据答案从文档中筛选出文档对应的候选答案片段这一步骤,其具体包括:
根据第一预设条件从每个文档中筛选出若干个片段,并将每个片段分别与答案集中的所有答案求F1值,从而得到每个片段关于所有答案的F1值,所述F1值为衡量片段和答案的相关程度的指标;
取得到的每个片段关于所有答案的F1值中数值最大的F1值作为每个片段的答案相关系数;
取答案相关系数最大的片段作为每个文档的候选答案片段。
3.根据权利要求1所述的基于语义的机器阅读理解的候选答案筛选方法,其特征在于:所述最优候选答案片段在候选答案文档中的位置信息包括最优候选答案片段在候选答案文档中的起始序号和最优候选答案片段在候选答案文档中的结束序号,所述计算获得最优候选答案片段在候选答案文档中的位置信息这一步骤,其具体包括:
获得候选答案文档中与最优候选答案片段匹配的字符串;
取所述字符串的第一个字符所在候选答案文档中的位置序号作为最优候选答案片段在候选答案文档中的起始序号,取所述字符串的最后一个字符所在候选答案文档中的位置序号作为最优候选答案片段在候选答案文档中的结束序号。
4.根据权利要求1所述的基于语义的机器阅读理解的候选答案筛选方法,其特征在于:还包括:
根据待测文档、待测问题和语义相关性获得待测答案文档,所述待测答案文档为机器阅读理解模型预测阶段的输入值。
5.根据权利要求4所述的基于语义的机器阅读理解的候选答案筛选方法,其特征在于:所述根据待测文档、待测问题和语义相关性获得待测答案文档这一步骤,其具体包括:
分别将待测问题和若干个待测文档输入至语义相关性模型,从而获得若干个待测文档对应的语义相关度;
根据获得的语义相关度对若干个待测文档排序,并将排序后的待测文档拼接成待测总文档;
从得到的待测总文档的起始位置开始截取满足机器阅读理解模型的最大输入长度的片段作为待测答案文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910213718.1/1.html,转载请声明来源钻瓜专利网。