[发明专利]一种数据处理方法及装置有效
申请号: | 201610099562.5 | 申请日: | 2016-02-23 |
公开(公告)号: | CN107103009B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 管国辰;林武康 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/2458 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 310052 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,应用于分布式数据处理系统中的客户端;其中,所述分布式数据处理系统包括:客户端、任务调度器、多个数据处理服务器和多个存储服务器;所述存储服务器中存储有多个数据片段,各个数据片段中存储有多条数据记录,所述方法包括:
接收针对待处理数据的数据处理指令;
根据所述数据处理指令,确定有效数据片段;其中,所述有效数据片段为针对所述待处理数据的数据片段;
获得所述有效数据片段中已存储的数据记录的数据分布信息;其中,所述数据分布信息为:按照预设的统计规则对每个数据片段中的数据记录的数量进行统计得到的信息;
根据所获得的数据分布信息,将每个有效数据片段的数据范围划分成至少一个子数据范围;
按照划分得到的各个子数据范围,生成针对每个有效数据片段的数据处理任务;其中,一个数据处理任务对应一个有效数据片段的一个子数据范围;
向所述任务调度器发送针对所述数据处理任务的数据处理请求,以使得所述任务调度器根据所述数据处理请求确定执行每一数据处理任务的数据处理服务器,其中,所述任务调度器确定数据处理服务器后,向所确定的数据处理服务器发送其要处理的数据处理任务,并接收所确定的各个数据处理服务器针对所分配的子数据范围进行数据处理的处理结果;
接收所述任务调度器反馈的针对待处理数据的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述存储服务器根据以下步骤统计得到所述各个数据片段中任一数据片段Ri中已存储的数据记录的数据分布信息:
所述存储服务器将所述数据片段Ri内的各条数据记录按照预设的标识值排序;
按照排序后所述数据片段Ri中的数据记录的排列顺序,将排序后的所述数 据片段Ri划分成至少一个数据区间;
统计划分得到的各个数据区间内的数据记录的数量;
根据统计得到的数量获得所述数据片段Ri内数据记录的数据分布信息。
3.根据权利要求2所述的方法,其特征在于,所述根据统计得到的数量获得所述数据片段Ri内数据记录的数据分布信息,包括:
计算所述数据片段Ri的数据记录的数量的方差;
判断所述方差是否大于预设的数据片段方差阈值;
如果是,判断是否满足以下表达式:Num≥Th1,或,Num≤Th2,如果满足则统计所述数据片段Ri划分得到的各个数据区间内的数据记录的数量,并按照统计后的数量更新所述数据分布信息;其中,Num表示数据片段Ri划分得到的各个数据区间内的数据记录的数量,Th1表示预设的第一数量阈值,Th2表示预设的第二数量阈值,且Th1≥Th2;
如果否,则保持当前的数据分布信息。
4.根据权利要求2所述的方法,其特征在于,所述根据统计得到的数量获得所述数据片段Ri内数据记录的数据分布信息,包括:
判断所述数据片段Ri的数据记录的数量是否满足预设的数据区间调整条件;
若满足,按照预设的区间调整规则对所述数据片段Ri中各个数据区间进行调整,并根据调整后各个数据区间内的数据记录的数量,获得所述数据片段Ri内数据记录的数据分布信息;
其中,所述预设的区间调整规则,包括:
获得统计得到的所述数据片段Ri中数据记录的数量大于预设的第一数量阈值Th3的数据区间;
按照预设的数据区间拆分规则,将数据记录的数量大于Th3的数据区间分别拆分为多个子数据区间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610099562.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:对象识别方法和装置
- 下一篇:可视化数据的处理方法及装置