[发明专利]基于百科数据的军事知识图谱构建和问答方法在审
申请号: | 202011489243.8 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112667821A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 路晓波;张可新;游若平 | 申请(专利权)人: | 北京华如慧云数据科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/332;G06F16/28;G06F16/951;G06F16/953;G06F40/247;G06F40/295 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100094 北京市海淀区永丰*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 百科 数据 军事 知识 图谱 构建 问答 方法 | ||
本发明公开了一种基于百科数据的军事知识图谱构建和问答方法,通过在知识图谱的构建过程中以百科数据作为数据源,过滤筛选军事类实体,丰富扩展实体,在问答过程中,采用基于答案排序的方法,在问句的实体识别阶段,添加实体名称的同义词,扩大筛选范围,保证返回结果的准确性。其优点是:在知识图谱构建阶段,使用开源的百科数据自动构建,不需要依赖专家知识,也不需要投入大量的人力物力;同时由于采用的百科数据的丰富性和及时性,能够保证构建的知识库信息丰富充足;在问答阶段,在基于答案排序的方法基础上,引入百科词条名称的同义词,扩充实体数量,采用多阶段处理的方法,保证结果更快更准确。
技术领域
本发明属于人工智能中的自然语言处理技术领域,具体涉及基于百科数据的军事知识图谱构建和问答方法。
背景技术
问答是计算机与人类以自然语言的形式进行交流的一种方式,是人工智能领域的一个分支,在语义搜索、问答系统、智能客服、个性化推荐等互联网应用中占有重要地位。互联网的快速发展,导致网络上的信息量呈现出爆炸式增长的势头,准确的问答搜索方法显得尤为重要。2012年5月,谷歌首次提出知识图谱的概念,很快互联网巨头纷纷跟进,构建了自己的知识图谱,包括微软Probase、百度知心、搜狗知立方等,各个行业也在探索建立垂直领域的知识图谱。
传统的军事领域知识图谱,基本都是人工构建,人工构建知识体系是一个耗时、昂贵、高度技巧化的任务,并且构造的过程烦琐而枯燥,很容易出错。因此自动的从数据中学习知识体系具有重要的意义。百科数据是由成千上万的网络用户共同编辑得到的,其包含的知识范围非常广泛。由于百科知识是开放编辑的,因此知识的更新和新知识的添加都比较及时。典型的代表有百度百科、互动百科、Wikipedia等。
基于知识图谱的问答主要分为基于语义分析和基于答案排序的方法两类。绝大多数基于语义分析的知识图谱问答需要带有语义标注的问题集合作为训练数据。这类数据需要花费的时间和成本很高,而且要求标注人员对语义表示有一定程度的理解。基于答案排序的知识图谱问答将该任务看成一个信息检索任务,即给定输入问题Q和知识图谱KB,通过对KB中实体进行打分和排序,选择得分最高的实体或者实体集合作为答案输出。传统的基于答案排序的方法需要较强的约束条件,在普适性上又不如基于语义分析方法。
发明内容
本发明的目的在于提供一种基于百科数据的军事知识图谱构建和问答方法,它能够克服现有技术中存在的缺陷,在知识图谱的构建过程中以百科数据作为数据源,过滤筛选军事类实体,丰富扩展实体,在问答过程中,采用基于答案排序的方法,在问句的实体识别阶段,添加实体名称的同义词,扩大筛选范围,保证返回结果的准确性。
本发明的技术方案如下:基于百科数据的军事知识图谱构建和问答方法,包括如下步骤:
步骤1:爬取百科的分类数据,将上述的分类数据视作概念数据,将爬取后的分类数据添加到图数据库中,同时建立概念之间的从属关系;
步骤2:迭代批量读取、处理百科数据,所述的百科数据是百科词条的集合,提取出百科词条中的同一实体名称的多种表述,所述的同一实体名称的多种表述称之为同义词,将这些同义词添加到图数据库中,同时建立实体名称和它的同义词之间的关系;
步骤3:使用ElasticSearch创建扩展实体的搜索库,在ElasticSearch中,创建索引,配置中文分词引擎,将所有的百科数据导入ElasticSearch中,创建扩展实体的搜索库;
步骤4:解析处理百科数据,提取实体信息,添加更新同义词数据,采用规则和文本分类的方法过滤军事实体,添加更新军事类实体信息到图数据库中,建立实体与概念之间的关系,处理军事实体信息关联的扩展实体信息,搜索获取扩展实体信息,判断类别,添加扩展信息到图数据库,建立实体与拓展实体之间的关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华如慧云数据科技有限公司,未经北京华如慧云数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011489243.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种叶菜大棚智能温度控制系统
- 下一篇:一种机器人加工用自动组装装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置