[发明专利]一种基于知识图谱的问答方法及农业百科问答系统有效

专利信息
申请号: 201810392883.3 申请日: 2018-04-27
公开(公告)号: CN108804521B 公开(公告)日: 2021-05-14
发明(设计)人: 花云程;吴刚;杨成彪 申请(专利权)人: 南京柯基数据科技有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/28;G06F16/35;G06F40/295;G06F40/284;G06Q50/02
代理公司: 江苏圣典律师事务所 32237 代理人: 许峰
地址: 210008 江苏省南京市江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种基于知识图谱的问答方法及农业百科问答系统,可以自动分析用户提出的自然语言问题,形成基于句法树的拓扑结构,通过拓扑结构与语法库中的问题模板进行检索和比对,根据拓扑结构与谓词指称的映射关系、同义词集合与知识图谱中关系或属性的映射关系,得到问题映射的谓词,并结合问题中识别的实体,生成最终的结构化的知识图谱查询语句,根据该查询语句到知识图谱中进行检索,返回最终的结果。当在问题模板库中无法检索到相关拓扑结构时,会调用FAQ问题库的常问问答对,进行问题的回答。该问答系统能够针对用户提出的问句给出精确的答案检索,提高用户对农业百科问题检索的满意度。
搜索关键词: 一种 基于 知识 图谱 问答 方法 农业 百科 系统
【主权项】:
1.一种基于知识图谱的问答方法,其特征在于,该方法包括以下步骤:1)构建用于存储农业领域知识的数据库、用于存储同义词集合和问题模板的语法库以及用于存储常问问题集的FAQ问题库,具体为:1.1构建农业领域知识图谱,并将知识图谱数据存储到结构化的RDF数据库TDB中,利用TDB服务进行知识图谱三元组的检索;1.2构建用于存储同义词集合和问题模板的语法库,将同义词集合与问题模板存储到语法库,所述的同义词集合包括与知识图谱中关系和属性相关的关键字,并提取问题中的拓扑结构形成问题模板库,存储到语法库,所述同义词集合和问题模板的具体建立步骤为:1.2.1首先收集领域相关问题的样本,形成样本集,并根据样本所涉及的关系或属性,对所述样本集进行分类,对问题样本进行命名实体识别后,去除实体指称,再将剩余部分进行分词、去除停用词操作,得到仅含有关键字的精简问题样例,并将涉及同一个关系或属性的精简问题样例归为一类,再将属于这些精简问题样例的关键字合并为一个集合,即得到一个同义词集合,而每一个同义词集合对应知识图谱中的一个关系或属性;1.2.2对每一个问题样本,进行命名实体识别,实体指称以通配符替代,再对问题样本进行分词和词性标注,并根据分词和词性标注结果建立句法树;分析句法树的结构,对问题样本进行分类,分类的依据为:归为一类的问题样本,其句法树中都有相同的子树,即这些子树的结构相同,且子树中相同位置的树节点,其词性也相同,这些相同的子树表示一种拓扑结构;对于每一类问题样本,记录下句法树拓扑结构中谓词指称所对应的部分,以此得到拓扑结构与谓词指称的对应关系,该对应关系即为问题模板,并形成问题模板库;1.3通过网络收集社区问答所提供的、用户交互衍生的大规模问题答案对,从中统计出高频的问题答案对,形成常问问题集,并将常问问题及相关答案存储到问题库,每一个问题对应一个标准答案,即为问题与答案的映射,以此构建FAQ问题库;2)对问题进行解析,具体步骤为:2.1对问题进行命名实体识别操作,将问句与知识图谱中的实体进行字符串匹配,得到问题的实体指称部分;2.2对问题进行实体链接操作,将实体指称链接到知识图谱中的某个实体;2.3问题的实体指称部分以通配符替代,并对问题的剩余部分进行分词,即将问句分割为一系列分词词组,并对所述分词词组进行词性标注;2.4用标注词性的分词词组,进行句法分析,建立句法树;2.5用句法树的词性拓扑结构,与步骤1.2.2中得到的问题模板库中的问题模板进行检索,判断问题对应的句法树拓扑结构,是否与某个问题模板中的结构相同,若是则视为匹配到模板,进入步骤3.1;否则进入步骤3.2;3)检索答案,具体步骤为:3.1从农业领域知识库中检索答案,具体步骤为:3.1.1根据步骤2.5检索匹配到的模板,得到问题的句法树拓扑结构中对应的谓词指称部分;3.1.2根据所述谓词指称部分对应的词性,从步骤2.3标注词性的分词词组中,取出问题中谓词指称部分的词组;3.1.3将问题中谓词指称部分的词组,与步骤1.2.1得到的同义词集合,进行相似度计算,对于相似度最大的同义词集合,其对应于知识图谱的关系或属性,即为问题映射到知识图谱的关系或属性;3.1.4将步骤2.2得到的实体视为主语或宾语,与步骤3.1.3得到的谓词相结合,生成SPARQL查询,从知识图谱中检索并找到对应的三元组,若将步骤2.2得到的实体视为主语,则以该三元组中的宾语作为问题的答案;若将步骤2.2得到的实体视为宾语,则以该三元组中的主语作为问题的答案,若没有检索到对应的三元组,则进入步骤3.3;3.2从FAQ问题库中检索答案,具体步骤为:3.2.1基于编辑距离,计算原始问题与FAQ问题库常问问题的相似度;3.2.2取相似度最大的常问问题为候选问题,若原始问题与候选问题的相似度大于问句相似度阈值,则视为原始问题匹配到该常问问题,进入步骤3.2.3;否则进入步骤3.3;3.2.3根据匹配得到的常问问题,以及FAQ问题库中常问问题与答案的映射关系,得到常问问题对应的答案,即作为原始问题的答案;3.3给出提示,无法回答问题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京柯基数据科技有限公司,未经南京柯基数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810392883.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top