[发明专利]一种基于知识图谱增益的机器阅读理解系统有效
申请号: | 202110082108.X | 申请日: | 2021-01-21 |
公开(公告)号: | CN112818128B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 徐菲菲;张文楷 | 申请(专利权)人: | 上海电力大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F16/953;G06F40/295 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 郁旦蓉 |
地址: | 200090 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 增益 机器 阅读 理解 系统 | ||
1.一种基于知识图谱增益的机器阅读理解系统,用于接收包括文本文档与问题在内的文本数据集以及根据所述文本数据集自行生成的词汇表,并根据所述文本文档的内容得到所述问题的答案,特征在于,包括:
文档问题排列模块,用于对所述文本数据集进行文本预处理与分离,使得所述文本数据集中的内容格式规范化,并将所述文本数据集中的每个所述文本文档与对应所述问题作为一个组合进行排列,按照G={[P0,Q0],[P1,Q1]...[Pn,Qn]}的格式排列得到文档问题排列数据,G为当前批次的所述文档数据集,P为所述文本文档,Q为所述问题;
命名实体识别模块,用于对所述文本数据集进行命名实体识别处理,在识别到实体后分别用对应的种类标签替代所述实体;
ERNIE上下文语言模块,与所述文档问题排列模块连接,用于接收所述文档问题排列数据并生成对应的词向量;
外部知识库,包括WordNet知识库和ConceptNet知识库,用于根据所述词汇表在各自库中检索对应的外部知识信息,并将所述外部知识信息通过RotatE算法固定为既定长度的向量,对应生成WordNet知识特征向量和ConceptNet知识特征向量;
知识匹配与连接层,与所述ERNIE上下文语言模块、所述命名实体识别模块和所述外部知识库连接,用于接收所述词向量、所述WordNet知识特征向量、所述ConceptNet知识特征向量,并对于所述文本文档与所述问题中匹配成功的所述实体,将对应的所述词向量与所述WordNet知识特征向量或所述ConceptNet知识特征向量进行连接;
注意力计算单元,用于读取连接后的所述词向量、所述WordNet知识特征向量以及所述ConceptNet知识特征向量,并为每个向量分配一个Tensor进行存储和计算,将所述词向量分别与每个所述WordNet知识特征向量和所述ConceptNet知识特征向量进行双向注意力运算,再将所述词向量与每个经过双向注意力运算的所述WordNet知识特征向量和所述ConceptNet知识特征向量进行连接,并用新的Tensor进行保存,再将新的Tensor进行自注意力运算后得到答案;以及
结果生成单元,用于接收所述答案,并对所述答案的置信度进行判定,当所述答案中的最佳置信度高于预定阈值时,将所述答案输出,当所述答案中的最佳置信度低于预定阈值时,启用答案优选机制,首先将置信度排名前五的所述答案均作为备选答案,之后将每一个所述备选答案放入语料库中进行语句困惑度的计算,并将语句困惑度最低的所述备选答案进行输出,
所述ConceptNet知识库中收录了关于词汇的同义词、近义词、不同语态、多语言以及关联词,并以图的形式进行保存。
2.根据权利要求1所述的基于知识图谱增益的机器阅读理解系统,其特征在于:
其中,所述预定阈值为0.4。
3.根据权利要求1所述的基于知识图谱增益的机器阅读理解系统,其特征在于:
其中,所述语料库由来自两个百科数据集的20万条自然语句构成,且该语料库和所述文本数据集无交集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电力大学,未经上海电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110082108.X/1.html,转载请声明来源钻瓜专利网。