[发明专利]数据处理方法、装置、计算机设备和存储介质有效
申请号: | 201710471132.6 | 申请日: | 2017-06-20 |
公开(公告)号: | CN109101507B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 张浩;尹红军 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种数据处理方法,由计算机设备执行,所述方法包括:
获取本轮未清洗且未携带必清洗标记的数据,得到本轮的待抽样清洗数据;
获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;
根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率;
对抽样概率在预设阈值以上的本轮的所述待抽样清洗数据进行抽样,得到相应的抽样数据;
清洗所述抽样数据和本轮未清洗且携带必清洗标记的数据;
确定本轮清洗中判断得到的脏数据在所述多个随机树上对应的节点;
获取与所述本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量;
在所述多个随机树上从所述节点起按照与所述脏数据所对应的节点的距离由近到远的顺序进行回溯搜索,并按照所述数据数量从回溯搜索过程中经历的节点中获取相互间不重复的数据;
在本轮除去所述抽样数据后的待抽样清洗数据中,将与获取的所述数据一致的数据添加必清洗标记;
当不满足清洗结束条件时,将下一轮当作本轮以继续清洗数据,直至满足清洗结束条件。
2.根据权利要求1所述的方法,其特征在于,所述获取与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量,包括:
根据所述本轮清洗中判断得到的脏数据在所述多个随机树上的路径长度,得到所述需添加必清洗标记的数据数量;所述需添加必清洗标记的数据数量与所述路径长度正相关。
3.根据权利要求1所述的方法,其特征在于,所述根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率,包括:
根据所述路径长度,获得本轮的每个所述待抽样清洗数据在所述多个随机树上的平均路径长度;
根据所述平均路径长度确定本轮的每个所述待抽样清洗数据的抽样概率,所述抽样概率与相应的所述平均路径长度负相关。
4.根据权利要求3所述的方法,其特征在于,所述根据所述平均路径长度确定本轮的每个所述待抽样清洗数据的抽样概率,所述抽样概率与相应的所述平均路径长度负相关,包括:
获取所述多个随机树的平均路径长度;
根据本轮的每个所述待抽样清洗数据在所述多个随机树上的平均路径长度和所述多个随机树的平均路径长度,生成异常分数;
其中,所述异常分数与本轮的每个所述待抽样清洗数据在所述多个随机树上的平均路径长度负相关,且与所述多个随机树的平均路径长度正相关;
根据所述异常分数,确定本轮的每个所述待抽样清洗数据的抽样概率;所述抽样概率与所述异常分数正相关。
5.根据权利要求1所述的方法,其特征在于,在所述当不满足清洗结束条件时,将下一轮当作本轮之前,所述方法还包括:
获取本轮清洗后得到的干净数据;
根据所述干净数据和抽样概率在预设阈值以下的本轮的所述待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新;
当更新后的机器学习模型不满足模型更新结束条件时,则判定不满足清洗结束条件。
6.根据权利要求1至5任一项所述的方法,其特征在于,在所述获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到之前,所述方法还包括:
对本轮或前至少一轮中的待抽样清洗数据进行多次均匀抽样,得到相应的训练数据;
根据每次均匀抽样得到的所述训练数据随机选择特征;
在随机选择的所述特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710471132.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于可视化的搜索方法及系统
- 下一篇:小文件归档、读取方法及装置、电子设备