[发明专利]一种实现数据处理的方法、装置、计算机存储介质及终端在审
申请号: | 201911377740.6 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111177409A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 白军伟;陈智发 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 数据处理 方法 装置 计算机 存储 介质 终端 | ||
一种实现数据处理的方法、装置、计算机存储介质及终端,包括:对待整合的图谱数据,确定各属性是否包含两个或两个以上属性值;属性包含两个或两个以上属性值时,根据属性是否包含相同的属性值对属性值进行存储处理。本发明实施例通过对待整合的图谱数据的存储处理,实现了知识图谱历史数据的管理。
技术领域
本文涉及但不限于知识图谱技术,尤指一种实现数据处理的方法、装置、计算机存储介质及终端。
背景技术
目前,知识图谱技术被广泛用于描述事物以及事务之间的关联;其中,属性图(Property Graph)是一种非常基础和常见的图谱表示模式。在属性图中,顶点(即知识图谱中的点)代表现实社会中的实体(如人、车、旅馆等),边(即知识图谱中的边)代表现实社会中的关系(如父子关系、人车拥有关系等)。每个实体由一个主键字段进行唯一标识,同时有一个标签(label)标识其所属分类(如人、车等),此外,每个实体还可以有多个其它属性。关系与实体类似,由一个label标识其关系类型,每个关系同样可以有多个其它属性,关系由组成关系的主体和客体的主键唯一标识。
在基于已有数据构建知识图谱过程中,实体和关系可能根据结构化和非结构化的原始数据整理得到。由于原始数据可能会随着时间的变化而不断发生变化;在构建知识图谱中,一般根据数据时间戳,采用覆盖更新的方式进行数据处理,知识图谱中无法查询历史时间点上的实体和关系状态信息,影响了用户及技术人员对知识图谱所涉及内容的掌握,如何对知识图谱所涉及数据进行有效管理,以提升知识图谱的相关性能成为一个有待解决的技术问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种实现数据处理的方法、装置、计算机存储介质及终端,能够实现对知识图谱所涉及数据进行有效管理。
本发明实施例提供了一种实现数据处理的方法,包括:
对待整合的图谱数据,确定各属性是否包含两个或两个以上属性值;
属性包含两个或两个以上属性值时,根据属性是否包含相同的属性值对属性值进行存储处理。
在一种示例性实施例中,所述根据属性是否包含相同的属性值对属性值进行存储处理,包括:
属性包含的属性值均不同时,根据是否包含标识信息进行各属性值的存储;
属性包含相同的属性值时,对相同的属性值进行去重处理;对去重处理后的属性值,根据是否包含所述标识信息进行各属性值的存储;
其中,所述标识信息用于区分各属性值的写入时间。
在一种示例性实施例中,所述对相同的属性值进行去重处理,包括:
对属性包含的相同的属性值,确定是否包含所述标识信息;
包含所述标识信息时,保留预设时间的属性值;不包含所述标识信息时,保留相同属性值中的任意一份属性值;
其中,所述预设时间包括:最早时间或最晚时间。
在一种示例性实施例中,所述根据是否包含标识信息进行各属性值的存储,包括:
包含所述标识信息时,按照写入时间的先后顺序存储各属性值;
不包含所述标识信息时,按照整合图谱数据的读取顺序存储各属性值。
在一种示例性实施例中,所述标识信息包括以下任意之一:
版本信息、时间戳信息。
在一种示例性实施例中,所述进行各属性值的存储,包括:
将属性的属性值存储到预设的存储区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911377740.6/2.html,转载请声明来源钻瓜专利网。