[发明专利]一种基于大数据的知识抽取与融合方法在审
申请号: | 201911359680.5 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111191044A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 曾诚;何鹏;张*;马传香;王时绘;陈昊;杨超 | 申请(专利权)人: | 湖北大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/31;G06F16/901 |
代理公司: | 武汉帅丞知识产权代理有限公司 42220 | 代理人: | 朱必武 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 知识 抽取 融合 方法 | ||
本发明属于大数据技术领域,尤其是一种基于大数据的知识抽取与融合方法,针对大数据的时效性、多源异构性、弱关联性和孤立分散性等特点给大数据的整合和知识抽取带来了较大不便的问题,现提出以下方案,包括如下步骤,概念抽取,概念分类关系抽取,概念非分类关系抽取,实体对齐和实体链接。本发明对于所获取的大数据,构建各刻面的实体、关系、属性类别体系,进行句法语义分析,发现候选知识点,进而进行特征选择,实现从海量数据中自动抽取“实体-关系-实体”与“实体-属性-属性值”知识,改进大数据采集的完备性,提升采集数据的可信度与有效度,支持知识图谱的高可用、动态扩展与更新,实现对大数据的有效融合。
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于大数据的知识抽取与融合方法。
背景技术
随着云时代的来临,大数据也吸引了越来越多的关注,一些数据具有信息碎片化,离散化的性质,且来源众多、类型复杂、格式多样,质量良莠不齐,数据更新频繁,数据价值稀疏,使其具有鲜明的“数据多源异构、知识动态更新”的特点。
这些大数据的时效性、多源异构性、弱关联性和孤立分散性等问题给大数据的整合和知识抽取带来了较大的不便,其中“多源”使得数据采集渠道众多,采集数据完备性和可信度都难以得到保证;“异构”使得将数据采用知识图谱进行表示和组织时,“知识抽取”方法适应性较差,实体与关系缺失越发严重;知识图谱中的知识“动态更新”使得本体体系的维护任务越发繁重。
发明内容
基于大数据的时效性、多源异构性、弱关联性和孤立分散性等特点给大数据的整合和知识抽取带来了较大不便的技术问题,本发明提出了一种基于大数据的知识抽取与融合方法。
本发明提出的一种基于大数据的知识抽取与融合方法,包括如下步骤:
S1:概念抽取,采用基于多搜索策略的领域概念抽取方法,对已获取的数据进行语义分析,自动获取实体和概念之间的匹配关系,构建候选概念池;
S2:概念分类关系抽取,主要是提取概念间的is-a关系;
S3:概念非分类关系抽取,主要是抽取概念之间的非is-a关系;
S4:实体对齐和实体链接,采用基于实体相似度的聚合模型支持多源知识图谱的实体对齐,采用基于图的集成实体链接方法支持知识图谱的动态更新。
优选地,所述S1中,并采用学习匹配技术(如 PSI,SSI 等)对概念池中的概念进行概念对齐,采用统计的手段(如 TF-IDF 等)从类似概念中提取最具代表性的概念,对找不到对应概念的实体,采用实体相似度计算在知识图谱中寻找与此实体相似度较高的实体,将其概念作为此实体的概念。
优选地,所述S2中,一方面借助已有的开放域本体/知识图谱等知识库,在实体的概念搜索过程中,从这些已有的知识库中获取概念的分类关系,比如从WordNet中抽取概念的上下位关系;另一方面,利用所属于同一概念的实体信息来丰富概念语义信息,将实体描述、实体属性等信息作为概念的语义特征,利用概念的语义相似度构建多路凝聚类型聚类算法,针对使用基本类型聚类算法只能输入二叉树的问题,在概念类型生成时使用多路凝聚类型聚类组织概念节点,从而构建多叉树形式的概念分类体系以实现概念的分类关系提取。
优选地,所述S3中,借助所属不同概念的实体之间的关系来填充概念的非分类关系,再通过计算关系的置信度确保概念级别的非分类关系的覆盖度与一致性问题。
优选地,采用基于翻译模型的知识表示方法,将实体与关系嵌入到语义空间中,借助语义向量推理发现概念间的非分类关系。
优选地,所述S4中,针对所采集数据的多源异质、碎片化以及需求多变的特点,采用基于半监督的自举式知识融合技术,利用实体对齐或实体链接方法来实现知识的融合与更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北大学,未经湖北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911359680.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自助导办系统和方法
- 下一篇:一种基于异构多核的任务分配方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置