[发明专利]数据处理方法、设备、系统及存储介质在审
申请号: | 201910977784.6 | 申请日: | 2019-10-15 |
公开(公告)号: | CN112667869A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 吴铁民;王赛;陈晓勇;向师富;柯根 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 张爱;刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 设备 系统 存储 介质 | ||
本申请实施例提供一种数据处理方法、设备、系统及存储介质。在本申请实施例中,根据多个关键属性之间的等级关系以及多个关键属性值之间的关联关系,识别出多个关键属性值中隶属于同一数据对象的属性值,完成了属于同一数据对象的不同属性下的属性值的纵向聚类。由于这种数据聚类方式,兼顾了多种关键属性,有利于降低错误聚类的概率,从而有助于提高对属于同一数据对象的数据进行识别的准确率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、设备、系统及存储介质。
背景技术
随着信息时代的发展,各种信息的承载媒介日趋多样,如何实现对数据的有效管理也越来越重要。为了实现对企业数据的有效管理,企业可构建全域统一账号。
为了构建统一账号,需要从海量数据中识别出属于同一自然人的数据,但是现有的数据识别方式,准确率较低。
发明内容
本申请的多个方面提供一种数据处理方法、设备、系统及存储介质,用以提高数据识别的准确率。
本申请实施例提供一种数据处理方法,包括:
获取多条数据记录,所述多条数据记录包含多个关键属性下的多个关键属性值,每个关键属性值在同一时刻属于一个数据对象;
根据所述多个关键属性之间的等级关系以及所述多个关键属性值之间的关联关系,识别出所述多个关键属性值中隶属于同一数据对象的属性值;
输出所述多个关键属性值中隶属于同一数据对象的属性值。
本申请实施例还提供一种数据处理方法,包括:
获取多条数据记录,所述多条数据记录包含多个第一类属性值;
若所述多条数据记录包含多个第二类属性值,则根据所述多个第一类属性值与所述多个第二类属性值在之间的关联关系,对所述多个第一类属性值进行聚类,以得到多个信息簇;
针对每个信息簇,分别计算不同的第一类属性值与候选结果之间的所属概率;所述候选结果包括:属于同一数据对象和不属于同一数据对象;
根据不同的第一类属性值与候选结果之间的所属概率,确定所述不同的第一类属性值是否属于同一数据对象。
本申请实施例还提供一种服务端设备,包括:存储器和处理器;其中,所述存储器,用于计算机程序;
所述处理器耦合至所述存储器,用于执行所述计算机程序以用于:
获取多条数据记录,所述多条数据记录包含多个关键属性下的多个关键属性值,每个关键属性值在同一时刻属于一个数据对象;
根据所述多个关键属性之间的等级关系以及所述多个关键属性值之间的关联关系,识别出所述多个关键属性值中隶属于同一数据对象的属性值;
输出所述多个关键属性值中隶属于同一数据对象的属性值。
本申请实施例还提供一种服务端设备,包括:存储器和处理器;其中,所述存储器,用于计算机程序;
所述处理器耦合至所述存储器,用于执行所述计算机程序以用于:
获取多条数据记录,所述多条数据记录包含多个第一类属性值;
若所述多条数据记录包含多个第二类属性值,则根据所述多个第一类属性值与所述多个第二类属性值在之间的关联关系,将所述多个第一类属性值划分成多个信息簇;
针对每个信息簇,分别计算不同的第一类属性值与候选结果之间的所属概率;所述候选结果包括:属于同一数据对象和不属于同一数据对象;
根据不同的第一类属性值与候选结果之间的所属概率,确定所述不同的第一类属性值是否属于同一数据对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910977784.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体结构的形成方法、晶体管
- 下一篇:一种制备二烷基次膦酸或其盐的方法