[发明专利]一种多文档场景下问答方法及系统在审
申请号: | 202011539038.8 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112632250A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 李博涵;顾高;王萌;历傲然;杨新民;张吉 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36;G06F40/242;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王爱涛 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 场景 问答 方法 系统 | ||
1.一种多文档场景下问答方法,其特征在于,所述方法包括:
对多个文档的文本信息进行编码,获得各所述文档的特征向量;
对待回答问题进行编码,获得所述待回答问题的特征向量;
根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;
从N个所述目标文档中抽取SPO三元组;
根据所述SPO三元组构建知识图谱;
根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;
利用分类器从所述证据图集合中获取目标证据图;
根据所述目标证据图的节点获得待回答问题的目标答案。
2.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述对多个文档的文本信息进行编码,获得各所述文档的特征向量之前,所述方法还包括:
获得多个文档的半结构数据;
对多个文档的半结构数据进行处理获得多个文档的文本信息。
3.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述方法还包括:将所述目标证据图作为所述目标答案的可解释性来源。
4.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述方法具体还包括:
利用HEAD-QA数据集中数据训练基于注意力的图神经网络,获得所述分类器。
5.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述从N个所述目标文档中抽取SPO三元组,具体包括:
对N个所述目标文档进行词性标记,提取词组;
对N个所述目标文档进行命名实体识别;
将所述命名实体和所述词组作为SPO三元组的实体对象。
6.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述对多个文档的文本信息进行编码,获得各所述文档的特征向量,具体包括:
采用TF-IDF方法对各所述文档的文本信息进行编码,获得各所述文档的特征向量。
7.根据权利要求6所述的多文档场景下问答方法,其特征在于,所述采用TF-IDF方法各所述文档的文本信息进行编码,获得各所述文档的特征向量,具体包括:
剔除各所述文档的文本信息中的停用词,获得各处理后文档;
将每个词在所述处理后文档中出现的频率除以每个词在所有文档中出现的总频率,获得每个词在各所述处理后文档中词频;
根据各处理后文档中每个词的词频确定各所述文档的特征向量。
8.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述对待回答问题进行编码,获得所述待回答问题的特征向量,具体包括:
采用TF-IDF方法对待回答问题进行编码,获得所述待回答问题的特征向量。
9.一种多文档场景下问答系统,其特征在于,所述系统包括:
文档的特征向量确定获取模块,用于对多个文档的文本信息进行编码,获得各所述文档的特征向量;
待回答问题的特征向量获取模块,用于对待回答问题进行编码,获得所述待回答问题的特征向量;
目标文档确定模块,用于根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;
SPO三元组抽取模块,用于从N个所述目标文档中抽取SPO三元组;
知识图谱构建模块,用于根据所述SPO三元组构建知识图谱;
证据图集合确定模块,用于根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;
目标证据图获取模块,用于利用分类器从所述证据图集合中获取目标证据图;
目标答案获取模块,用于根据所述目标证据图的节点获得待回答问题的目标答案。
10.根据权利要求9所述的多文档场景下问答系统,其特征在于,所述系统还包括:
将所述目标证据图作为所述目标答案的可解释性来源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011539038.8/1.html,转载请声明来源钻瓜专利网。