[发明专利]一种基于大数据的知识抽取与融合方法在审
申请号: | 201911359680.5 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111191044A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 曾诚;何鹏;张*;马传香;王时绘;陈昊;杨超 | 申请(专利权)人: | 湖北大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/31;G06F16/901 |
代理公司: | 武汉帅丞知识产权代理有限公司 42220 | 代理人: | 朱必武 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 知识 抽取 融合 方法 | ||
1.一种基于大数据的知识抽取与融合方法,其特征在于,包括如下步骤:
S1:概念抽取,采用基于多搜索策略的领域概念抽取方法,对已获取的数据进行语义分析,自动获取实体和概念之间的匹配关系,构建候选概念池;
S2:概念分类关系抽取,主要是提取概念间的is-a关系;
S3:概念非分类关系抽取,主要是抽取概念之间的非is-a关系;
S4:实体对齐和实体链接,采用基于实体相似度的聚合模型支持多源知识图谱的实体对齐,采用基于图的集成实体链接方法支持知识图谱的动态更新。
2.根据权利要求1所述的一种基于大数据的知识抽取与融合方法,其特征在于,所述S1中,采用学习匹配技术对概念池中的概念进行概念对齐,采用统计的手段从类似概念中提取最具代表性的概念,对找不到对应概念的实体,采用实体相似度计算在知识图谱中寻找与此实体相似度较高的实体,将其概念作为此实体的概念。
3.根据权利要求2所述的一种基于大数据的知识抽取与融合方法,其特征在于,所述S2中,一方面借助已有的开放域本体/知识图谱等知识库,在实体的概念搜索过程中,从这些已有的知识库中获取概念的分类关系;另一方面,利用所属于同一概念的实体信息来丰富概念语义信息,将实体描述、实体属性等信息作为概念的语义特征,利用概念的语义相似度构建多路凝聚类型聚类算法,针对使用基本类型聚类算法只能输入二叉树的问题,在概念类型生成时使用多路凝聚类型聚类组织概念节点,从而构建多叉树形式的概念分类体系以实现概念的分类关系提取。
4.根据权利要求3所述的一种基于大数据的知识抽取与融合方法,其特征在于,所述S3中,借助所属不同概念的实体之间的关系来填充概念的非分类关系,再通过计算关系的置信度确保概念级别的非分类关系的覆盖度与一致性问题。
5.根据权利要求4所述的一种基于大数据的知识抽取与融合方法,其特征在于,采用基于翻译模型的知识表示方法,将实体与关系嵌入到语义空间中,借助语义向量推理发现概念间的非分类关系。
6.根据权利要求5所述的一种基于大数据的知识抽取与融合方法,其特征在于,所述S4中,针对所采集数据的多源异质、碎片化以及需求多变的特点,采用基于半监督的自举式知识融合技术,利用实体对齐或实体链接方法来实现知识的融合与更新。
7.根据权利要求6所述的一种基于大数据的知识抽取与融合方法,其特征在于,所述S4中,首先从多个知识图谱中选取种子实体,对这些实体信息进行预处理,然后采用动态索引技术为实体的属性和关系建立索引,通过剪枝方法过滤掉相似度较低的实体对,使得相似度较高的实体对分布到多个区块中成为候选对齐实体对,利用基于属性相似度和结构相似度的聚合模型学习方法来生成匹配实体对,经过模型的训练过程,最后采用基于图相似性传播的“自举式”迭代对齐方法,不断扩充种子实体集,选取与种子实体具有高置信度的匹配实体对,最终完成实体对齐的工作,支持知识的高效融合。
8.根据权利要求6所述的一种基于大数据的知识抽取与融合方法,其特征在于,所述S4中,首先从当前知识图谱中生成候选实体集,对于给定的实体链接指称项,结合其上下文语义特征计算其与候选实体之间的相似度,并进行排序,然后利用选取的指称项和候选实体集构建指称图,利用语义相关性对指称项与实体之间的连接边赋予权重,最后采用基于指称图的证据传播算法为指称项匹配实体,从而实现集成实体链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北大学,未经湖北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911359680.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自助导办系统和方法
- 下一篇:一种基于异构多核的任务分配方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置