[发明专利]一种数据处理的方法、装置、计算机存储介质及终端在审
申请号: | 201910113903.3 | 申请日: | 2019-02-14 |
公开(公告)号: | CN109918452A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 陈媛;任鑫琦 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
地址: | 102218 北京市昌平区东小*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机存储介质 图谱 数据模型 数据处理 构建 终端 数据检索 数据信息 分析 | ||
一种数据处理的方法、装置、计算机存储介质及终端,包括:根据包括实体、关系和事件的数据信息,建立数据模型;根据建立的数据模型构建知识图谱;通过构建的知识图谱进行数据检索。本发明实施例提升了知识图谱的分析质量。
技术领域
本文涉及但不限于知识图谱技术,尤指一种数据处理的方法、装置、计算机存储介质及终端。
背景技术
知识图谱从其服务领域上可以分为通用知识图谱和领域知识图谱。当前大部分已经发布的开放知识图谱都是通用知识图谱,它的数据来源通常来自于互联网开放数据,它强调的是广度,及融合更多的实体;较领域知识图谱,通用知识图谱准确度不够高,且受概念范围的影响,很难借助本体库对公理、规则及约束条件的支持能力规范其实体、属性、实体间的关系;通用知识图谱主要应用于智能搜索等领域。领域知识图谱通常需要依靠特定行业的数据来构建,具有特定的行业意义。领域知识图谱中,实体的属性与数据模式往往比较丰富,需要考虑到不同的业务场景与使用人员。因此,通用知识图谱的数据模型在领域知识图谱构建中会有很多局限。
目前,公共安全行业的知识图谱数据模型较成熟的有实体-链接-属性(ELP,Entity-Link-Property)数据模型和动态本体(Dynamic Ontology)数据模型;其中,在ELP数据模型中,实体:代表一个真实的对象;包括但不限于:人、车等;链接:表示两个实体之间的联系及关联信息;如人和车属于拥有关联;属性:用于存储实体或者链接的特征信息;以实体为人作为示例,其属性可以包括:姓名、出生时间、头发颜色等;动态本体数据模型需要灵活构建对象(Object)和对象组件(Object Components);其中,动态本体数据模型中,属性(Properties)是指文本类的属性值;媒体(Media)是指:图片、视频、文档、二进制数据等文件;注释(Notes)为:无结构的自由文本的容器;关系(Relationship)用于:描述不同对象间的联系。
上述两种数据模型基本类似,都是“实体-关系-属性”数据模型为基础,实体属性宽泛、关系简单及实体-关系拓扑结构较为粗浅,影响了知识图谱的分析效果。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种数据处理的方法、装置、计算机存储介质及终端,能够提升知识图谱的分析质量。
本发明实施例提供了一种数据处理的方法,包括:
根据包括实体、关系和事件的数据信息,建立数据模型;
根据建立的数据模型构建知识图谱;
通过构建的知识图谱进行数据检索。
可选的,所述建立数据模型之前,所述方法还包括通过以下方式获取所述实体:
对预先存储的源数据进行处理后,建立用于获取所述数据信息的知识库;
所述知识库中包含的所述源数据为结构化数据时,对所述源数据进行预处理后,通过预先设定的实体匹配规则构建所述实体;
所述知识库中包含的所述源数据为非结构化数据时,通过文本挖掘技术、或实体标注与识别技术对所述源数据进行处理后,构建所述实体。
可选的,所述实体包括:物理实体和/或虚拟实体;
其中,所述物理实体包括以下一种或一种以上实体:人、车辆、房屋;所述虚拟实体包括以下一种或一种以上实体:组织机构、虚拟身份。
可选的,所述实体包含以下一种或一种以上属性:
标签属性、自然属性、一个或一个以上主键属性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910113903.3/2.html,转载请声明来源钻瓜专利网。