[发明专利]实时流式图关系的处理方法及系统在审
申请号: | 202011483212.1 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112632336A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 张波 | 申请(专利权)人: | 恩亿科(北京)数据科技有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
地址: | 100192 北京市海淀区西小口路66*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时 流式图 关系 处理 方法 系统 | ||
本发明公开了一种实时流式图关系的处理方法及系统,处理方法包括:数据处理步骤:从实时流式图获取实体关系数据并排序后,对排序后的所述实体关系数据进行数据扩充获得第一数据及第二数据;迭代处理步骤:对所述第一数据及所述第二数据进行key by迭代操作获得结构图数据;结构图获得步骤:根据设置的ID标识将所述结构图数据进行聚合获得图结构关系。本发明在流式场景下,通过图遍历和聚合算法对关系数据进行转换处理并且快速建立图关系结构,从而实现流式处理场景下的高吞吐量和实时性。
技术领域
本发明涉及数据处理技术领域,具体地说,尤其涉及一种实时流式图 关系的处理方法及系统。
背景技术
随着大数据相关技术的深入发展,日常都离不开数据库。选择合适的 数据库对于企业来说可以达到是事半功倍的效果。大型企业互联网数据中, 数据类型多种多样,均会以合适的类型存储至数据库。数据库根据数据类 型分为传统的关系型数据库和非关系型数据库。图数据库作为非关系型数 据库的一种,在表示实体间关系的领域内,有着举足轻重的作用。
在营销场景下,单个实体的属性分布在多个不同主键的表中(例如消 费者的手机号mobile,设备号imei,微信号openid等,每一类ID在各自的 表中作为主键存储相应的数据)。如果将这些ID进行统一,就可以很好的 描述实体的整体属性。而如何将这些主键ID进行打通,是企业面临的一个 重要问题。目前的实际解决方案上,是将这些相关的ID进行图关系的建立 与计算。
现有技术中使用图数据库,将数据保存至图数据库,对数据进行图关 系的查询,然后利用查询的结果,来进行计算,这种方式本质上是利用了 图数据库来进行实时性的补充,计算由图数据库完成;现有技术中还采用 使用图计算引擎,直接打通多类ID。但是这两种方式,在实际使用中发现 存在以下缺陷:
1、图数据库的使用门槛较高,且非常占用自用使用,以存储查询见长, 而在于复杂查询上,性能较差,尤其是对于具有高深度的实体进行查询时, 在深度的计算能力上,极其有限,实时性无法得到可靠保证;
2、图计算引擎长于计算批量数据的图关系生成,由于是批量的数据接 入,数据量越大,计算越耗时,不具备良好的实时性。
因此亟需开发一种克服上述缺陷的实时流式图关系的处理方法及系统。
发明内容
针对上述问题,本发明提供一种实时流式图关系的处理方法,其中, 包括:
数据处理步骤:从实时流式图获取实体关系数据并排序后,对排序后 的所述实体关系数据进行数据扩充获得第一数据及第二数据;
迭代处理步骤:对所述第一数据及所述第二数据进行key by迭代操作 获得结构图数据;
结构图获得步骤:根据设置的ID标识将所述结构图数据进行聚合获得 图结构关系。
上述的处理方法,其中,所述数据处理步骤包括:
排序步骤:将包含单个实体的属性数据的所述实体关系数据进行排序 操作;
扩充步骤:对排序后的所述实体关系数据进行扩充获得所述第一数据 及所述第二数据。
上述的处理方法,其中,所述第一数据包括单纯的实体关系,所述第 二数据包括单纯的实体关系及带有实体属性的实体关系。
上述的处理方法,其中,所述迭代处理步骤包括:
判断步骤:根据每个字段的属性确定初始中心点和初始普通点;
迭代步骤:根据所述初始中心点和所述初始普通点进行迭代操作获得 包括最终中心点和最终普通点的结构图数据。
上述的处理方法,其中,所述结构图获得步骤包括:
设置步骤:为所述实时流式图的每一实体设置一ID标识;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恩亿科(北京)数据科技有限公司,未经恩亿科(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011483212.1/2.html,转载请声明来源钻瓜专利网。