[发明专利]一种数据处理方法及装置有效
申请号: | 201610099562.5 | 申请日: | 2016-02-23 |
公开(公告)号: | CN107103009B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 管国辰;林武康 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/2458 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 310052 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
技术领域
本发明涉及分布式计算技术领域,特别是涉及一种数据处理方法及装置。
背景技术
在信息爆炸的时代中,用户可获得的数据量呈指数增长的趋势。当对数据库系统中已存储的数据记录进行处理时所需要的计算资源也随之增大,这对数据库系统中的数据处理服务器的计算性能提出了更高的要求。在基于传统的集中式数据库的数据库系统(简称为集中式数据库系统)中,数据处理服务器通常是由单台计算机构成的,随着数据量的迅猛增长,单台计算机的性能有限,通过提高单台计算机计算能力的方式已经很难满足用户的数据处理需要。
现有技术中提供了这样一种数据处理方法,该方法应用于基于存储服务器的数据库系统(简称为分布式数据处理系统),该分布式数据处理系统包括存储服务器、一个管理服务器和多个数据处理服务器,该数据库被划分为多个数据片段,各个数据片段中存储有多条数据记录,进行数据处理时,首先,管理服务器获得针对待处理数据的数据处理指令,根据该系统中数据片段的数量将已存储的数据记录划分成多个数据处理任务,然后将划分得到的各个数据处理任务均匀地分发给各个数据处理服务器,各个数据处理服务器在接收到相应的数据处理任务后对数据处理任务包含的数据记录进行数据处理并将处理结果反馈至管理服务器,完成数据处理。
相比集中式数据库系统而言,分布式数据处理系统减少了单台计算机需要处理的数据量,因此降低了对单台计算机的计算性能的要求。但是,由于划分数据处理任务时是根据数据片段的数量划分的,而每一数据片段内所包含的数据记录的数量不一定相等,所以,划分得到的各个数据处理任务中包括的数据记录的数量不一定相同,可见根据数据片段的数量划分数据处理任务并向处理服务器分配数据处理任务时,易造成各个数据处理服务器所要执行任务的任务量不均衡,例如,对于具有相同的计算性能的数据处理服务器而言,有的数据处理服务器的任务量很大,而有的数据处理服务器的任务量甚至几乎为零,显 然,各个数据处理服务器所分配到的数据处理任务是不均衡的,进一步的,这种不均衡现象还会降低该分布式数据处理系统的整体处理速度。
发明内容
本发明实施例的目的在于提供一种数据处理方法及装置,以实现将分布式数据处理系统的数据库中的数据记录均衡地分配给该系统中的各个数据处理服务器,提高分布式数据处理系统中数据处理服务器的并行处理速度,从而提高分布式数据处理系统的整体处理性能。
为达到上述目的,本发明实施例公开了一种数据处理方法,应用于分布式数据处理系统中的客户端;其中,所述分布式数据处理系统包括:客户端、任务调度器、多个数据处理服务器和多个存储服务器;所述存储服务器中存储有多个数据片段,各个数据片段中存储有多条数据记录,所述方法包括:
接收针对待处理数据的数据处理指令;
根据所述数据处理指令,确定有效数据片段;其中,所述有效数据片段为针对所述待处理数据的数据片段;
获得所述有效数据片段中已存储的数据记录的数据分布信息;其中,所述数据分布信息为:按照预设的统计规则对每个数据片段中的数据记录的数量进行统计得到的信息;
根据所获得的数据分布信息,将每个有效数据片段的数据范围划分成至少一个子数据范围;
按照划分得到的各个子数据范围,生成针对每个有效数据片段的数据处理任务;其中,一个数据处理任务对应一个有效数据片段的一个子数据范围;
向所述任务调度器发送针对所述数据处理任务的数据处理请求,以使得所述任务调度器根据所述数据处理请求确定执行每一数据处理任务的数据处理服务器,其中,所述任务调度器确定数据处理服务器后,向所确定的数据处理服务器发送其要处理的数据处理任务,并接收所确定的各个数据处理服务器针对所分配的子数据范围进行数据处理的处理结果;
接收所述任务调度器反馈的针对待处理数据的处理结果。
较佳的,所述存储服务器根据以下步骤统计得到所述各个数据片段中任一数据片段Ri中已存储的数据记录的数据分布信息:
所述存储服务器将所述数据片段Ri内的各条数据记录按照预设的标识值排序;
按照排序后所述数据片段Ri中的数据记录的排列顺序,将排序后的所述数据片段Ri划分成至少一个数据区间;
统计划分得到的各个数据区间内的数据记录的数量;
根据统计得到的数量获得所述数据片段Ri内数据记录的数据分布信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610099562.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对象识别方法和装置
- 下一篇:可视化数据的处理方法及装置