[发明专利]一种数据处理方法及服务器有效
申请号: | 201710199325.0 | 申请日: | 2017-03-29 |
公开(公告)号: | CN107168995B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 尹正军 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;李梅香 |
地址: | 100085*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 服务器 | ||
本发明公开了一种数据处理方法,所述方法包括:确定源数据的不同维度的特征的相似度;将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;对于每个所述类别的源数据,确定对相应类别的源数据进行处理包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;基于所述各所述处理阶段所遵循的质量规则对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理。本发明还公开了一种服务器。
技术领域
本发明涉及信息处理技术,尤其涉及一种数据处理方法及服务器。
背景技术
对大数据进行分析时,通常会涉及数据的清洗和校准,如数据一致性检查、无效值和缺失值的处理、异常值和错误值的处理、重复值的检测和消除等。现有技术中,对数据进行处理的流程示意图,如图1所示,包括源数据清洗、数据处理过程质量监测、在线监控报警、监控效果分析和手动调整清洗校准脚本或代码逻辑;在对数据处理过程进行质量监控时,基于质量规则库进行人工检查、或基于业务经验来编写特定的处理程序;通过人工检查或人工编写特定的处理程序对数据进行清洗和校准时,识别数据质量问题的效率低、很难全面的处理诸多异常数据、消耗大量的时间和人力成本。并且,现有技术中的方案也未充分利用计算平台提供的强大的数据处理能力。
发明内容
为解决现有存在的技术问题,本发明实施例提供了一种数据处理方法及服务器,能至少解决现有技术中存在的上述问题。
本发明实施例提供一种数据处理方法,所述方法包括:确定源数据的不同维度的特征的相似度;
将相应维度的相似度满足条件的所述源数据聚类到相应维度的类别;
对于每个所述类别的源数据,确定对相应类别的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
基于各所述处理阶段所遵循的质量规则,对相应类别的源数据按照确定的不同处理阶段的执行顺序进行处理。
上述方案中,所述确定对相应类别的源数据进行处理所包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则,包括:
确定相应类别的源数据的输入特征;
基于所述输入特征在决策树模型中查找处理所述相应类别的源数据包括的不同处理阶段的执行顺序、以及所述处理阶段所遵循的质量规则;
所述决策树模型为基于历史源数据训练得到,用于表征不同输入特征的历史源数据与所应用的质量规则的对应关系。
上述方案中,所述方法还包括:根据历史的不同类别的所述源数据在各所述处理阶段进行处理后得到数据的质量,确定不同类别的所述源数据在各所述处理阶段进行处理后得到的数据的质量的变化规律;
根据所述变化规律,预测所述源数据在各所述处理阶段处理得到的数据的质量的分布。
上述方案中,所述方法还包括:
建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定第一质量规则库集合与所述异常数据输出对象集合之间的第一关联关系;
在决策树模型中查找与所述第一关联关系匹配的质量规则,得到第一匹配结果;
基于所述第一匹配结果修改所述决策树模型。
上述方案中,所述方法还包括:
建立用于表征历史源数据经过处理形成目标数据过程中的各节点数据与质量规则之间关联关系;
基于所述关联关系确定数据质量程度与所述异常数据输出对象集合之间的第二关联关系;
在决策树模型中查找与所述第二关联关系匹配的数据质量程度,得到第二匹配结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710199325.0/2.html,转载请声明来源钻瓜专利网。