[发明专利]数据处理方法、装置和计算机可读存储介质有效
申请号: | 201811373749.5 | 申请日: | 2018-11-19 |
公开(公告)号: | CN111274275B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 张祎轶;宋淑杰;刘晓佳;严燕青;姜思佳 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/2458 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李昊 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 可读 存储 介质 | ||
1.一种数据处理方法,包括:
根据新数据集中的边界数据将新数据集划分为若干文件块,其中,所述新数据集中的边界数据为原数据集中的文件块的边界数据;
将新数据集中的文件块与原数据集中最相似的文件块进行比较,获得变更的数据;
对变更的数据进行数据分析,更新原数据集的数据分析结果,包括:
对变更的数据中的新增数据进行数据分类,获得新增数据簇;
根据新增的数据在新增数据簇中的类型,调整原数据簇中的数据,其中,原数据簇为原数据集包括的数据簇;
根据删除的数据在原数据簇中的类型,调整原数据簇中的数据。
2.根据权利要求1所述的数据处理方法,其中,所述根据新数据集中的边界数据将新数据集划分为若干文件块包括:
初始化新的文件块,所述新的文件块为空;
将新数据集中未读取的数据逐条读取到所述文件块中,并进行边界数据判断;
响应于读取到所述空文件块中的数据为边界数据,结束所述文件块的数据读取。
3.根据权利要求2所述的数据处理方法,其中,所述进行边界数据判断包括:
判断读取到所述文件块中的数据的指纹是否位于原数据集中的文件块的边界数据的指纹集合中。
4.根据权利要求1所述的数据处理方法,其中,
多个Map任务中的每个Map任务根据新数据集中的边界数据,将新数据集中每个Map任务对应的数据划分为若干文件块;
Reduce任务汇总新数据集中的文件块;
Reduce任务将新数据集中的文件块与原数据集中最相似的文件块进行比较,获得变更的数据;
Reduce任务对变更的数据进行数据分析,获得数据分析结果。
5.根据权利要求1所述的数据处理方法,其中,所述根据变更的数据在新增数据簇和/或原数据簇中的类型,调整原数据簇中的数据包括:
在变更的数据中的一条删除数据是原数据簇中的核心点,并且所述一条删除数据的邻域内的所有原数据集中的核心点属于同一个原数据簇的情况下,分割所述同一个原数据簇;
从原数据集中删除所述一条删除数据。
6.根据权利要求1所述的数据处理方法,其中,所述根据变更的数据在新增数据簇和/或原数据簇中的类型,调整原数据簇中的数据包括:
根据新增数据集中数据的分布密度,将新增数据集划分为多个新增数据簇;
如果一条新增数据为新增数据簇的离群点,将所述一条新增数据作为离群点添加到原数据簇中;
如果一条新增数据为新增数据簇的核心点,在所述一条新增数据的邻域内的所有原数据集中的核心点属于多个原数据簇的情况下,合并所述多个原数据簇;将所述一条新增数据添加到所述邻域内的所有原数据集中的核心点所属的原数据簇中;
如果一条新增数据为新增数据簇的边界点,将所述一条新增数据归并到所述一条新增数据邻域内距离最近的原数据集中的核心点所在的原数据簇中。
7.根据权利要求6所述的数据处理方法,其中,所述根据新增数据集中数据的分布密度,将新增数据集划分为多个新增数据簇包括:
对于新增数据集中数据的每个维度,根据数据在每个维度上的分布密度,确定每个维度上的一个或多个划分值;
根据所有维度上的划分值,将新数据集划分为多个分区;
对每个分区内的数据进行聚类,生成多个新增数据簇;
将属于不同分区且符合基于密度的合并条件的新增数据簇进行合并。
8.根据权利要求7所述的数据处理方法,其中,所述根据数据在每个维度上的分布密度,确定每个维度上的一个或多个划分值包括:
统计数据在每个维度上每个单位区间的分布数量;
将同一维度上所述分布数量或分布数量的排名低于预设值、并且与相邻单位区间的分布数量的差距大于预设值的单位区间确定为划分区间;
将划分区间中的一个数值确定为划分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811373749.5/1.html,转载请声明来源钻瓜专利网。