[发明专利]基于文件的海量数据处理方法有效
申请号: | 201010265079.2 | 申请日: | 2010-08-29 |
公开(公告)号: | CN101916296A | 公开(公告)日: | 2010-12-15 |
发明(设计)人: | 袁洁 | 申请(专利权)人: | 武汉天喻信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430223 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文件 海量 数据处理 方法 | ||
【技术领域】
本发明涉及一种海量数据处理方法,尤其涉及一种基于文件的海量数据处理方法。
【背景技术】
海量数据数据量过大,数据格式复杂,数据中的随机情况多,不便于分类处理,对其处理是一项艰巨而复杂的任务。主要有以下几个方面的原因
1.数据量过大,数据量上千万甚至上亿,在这些数据中,还有可以随机出现数据格式错误情况,导致系统在设计时面临很大的困难;
2.软硬件要求高,对于海量数据的处理,占用的系统资源高,如果合理分配软硬件的系统资源,也是海量数据处理的一大难题;
3.要求很高的系统容错性,在某项数据出现错误时,不能影响系统的正常运行,甚至在硬件出现故障时,也能保证数据不丢失,并且可以进行容错处理。
4.海量数据的事务管理,在数据处理时,如果涉及到的数据处理一个事务当中,需要保证数据库的事务控制,随着数据量的增加,要保证大量数据在同一个数据库事务中处理,是一个相当困难的问题。
5.海量数据的处理程序,一次设计后,不能重复利用,往往只能应用于一个行业或某个项目,浪费大量的人力物力。
传统的海量数据处理,在使用高配置的服务器,加强CPU的处理性能和内存容量后,仍然有一些问题没有办法解决,容错性不高、资源分配不合理、事务管理不一致等等问题。
随着信息化的不断发展,数据处理量的不断增加,海量数据的处理在各领域大规模的应用,交通、银行、石油、移动支付等。基于文件海量数据处理过程,在确何系统处理性能的同时,充分的考虑了系统容错性、资源合理分配、事务处理等各种海量数据处理难点,并且采用了模块拨插的思想,海量数据处理模型可以重复的应用于多个行业。
【发明内容】
本发明的目的在于提供一种基于文件海量数据处理方法,所述文件是将软件平台接收到的下级或其它软件平台(系统)发送的数据,以计算机数据文件保存的,所述海量数据处理,是指大型的软件清分清算、实时交易平台将接收到的交易数据经过一系列的逻辑运算和校验后,存入到数据库的过程。本发明所提供的海量数据处理过程是为了在计算机系统发生各种意外的情况下,都可以保证数据的正确性和完整性,并且在保证数据正确性和完整性的同时,确保海量数据的处理性能。
为实现本发明的目的所采用的技术方案为:
一种基于文件海量数据处理方法,通过将数据处理系统接收到的海量数据进行文件分组,再通过多线程(进程)并发处理,该数据处理系统包括多台数据处理服务器和一个共享磁盘柜,所述共享磁盘柜存放待处理的数据文件,提供数据处理服务器共享,多台数据处理服务器均可访问所述共享磁盘柜;另外,数据处理服务器均与数据库服务器相连接,用于将处理后的数据存入数据库。具体处理过程如下:
(1)对多台数据处理服务器间进行互斥控制,具体步骤如下:
由数据处理服务器的主控进程查询并锁定数据库中的时间控制表,当到达文件处理时间时,主控进程启动处理线程(进程)以进行文件处理,同时根据处理周期更新下一次的处理时间;
同时,主控进程根据文件处理的进度,在达到下一个处理时间之前,如果文件没有处理完成,主控进程根据运算量的需要,将下一个处理时间往后延长一定的时间。
多台数据处理服务器不同时对文件进行处理,在同一时间范围内,只有一台数据处理服务器工作,其它数据处理服务器进行工作备份,多台数据处理服务器采用数据库操作进行互斥,避免同时对文件进行操作。当处理的数据处理服务器发生故障时,在下一个文件处理周期到来时,备份计算机可以继续处理文件。
(2)对海量数据的文件分组
所述的文件,是指将需要处理入库的数据在共享磁盘柜上暂存的形式,所述的文件分组,是指将文件按照并发线程(进程)的总数量取模分组,将文件对应到不同的线程(进程)处理,所述线程(进程)是指数据处理服务器分配处理器时间资源的基本单元,所述并发处理是指多台数据处理服务器中的多个线程(进程)联合处理文件入库。
文件以二进制、XML文本等结构化的文件形式存在,文件根据数据的不同来源存入于不同的目录,文件名具有唯一编码,编码按照文件产生时间加上顺序号,以分组的形式交由系统线程(进程)处理。
文件分组是指将文件进行有序的排列并从1开始顺序编号后,将文件编号对线程(进程)的数量取模,取模后的余数与线程(进程)的编号进行对应,如果余数等于其中某个线程(进程)的编号,则将编号后的文件交由该线程(进程)处理。由多个线程(进程)同时处理分组后文件,由多个线程(进程)处理的文件各不相同,不会出现线程(进程)间的资源竞争问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉天喻信息产业股份有限公司,未经武汉天喻信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010265079.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光源控制系统及其控制方法
- 下一篇:碳纤维石英加热管