[发明专利]海量片段数据汇聚的系统和方法无效
申请号: | 201110375167.2 | 申请日: | 2011-11-23 |
公开(公告)号: | CN102456076A | 公开(公告)日: | 2012-05-16 |
发明(设计)人: | 王亮;孙晋超;杨祖明;张栗伟 | 申请(专利权)人: | 北京安天电子设备有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 片段 数据 汇聚 系统 方法 | ||
技术领域
本发明涉及计算机数据库领域,尤其涉及一种对海量片段数据进行处理,对其合并和汇聚的系统和方法。
背景技术
在计算机领域中有这样一类文件,称其为片段,它们是某个整体文件或数据的一部分。且分为两种:
1、片段自身无独立意义,必须完全合并后,组成的整体才有意义。例如多媒体文件:图片、视频、音乐。当上传时,为了上传速度快,以及少占用网络带宽,将其拆分为若干个小文件片段,然后分别上传这个文件片段,服务器端接收片段后,将其按照一定的规则合并。将合并后的完整文件保存在服务器端。
此类片段是:
先有整体——切割为个体——上传到服务器端——服务器端将其重新汇聚为整体
2、片段自身可以有独立意义,合并成后的完整文件也有意义。如包含数据信息的文本文件(xml格式等),这些文本文件可以单独产生,可以单独阅读和使用,而将其合并后,合并后的完整文本则是其它信息的合集。可以整体使用。
此类片段是:
先有个体——上传到服务器端——服务器端将其汇聚为整体
以上两种片段文件的数量都是不定的,由于上传片段的客户端不同,以及网络延时等原因,服务器端也是无序接收到这些片段的。
因此对于此类文件,不仅其片段需要统计分析和保存,还需将其按照一定规则进行合并。对合并后的最终结果再进行相应处理和保存。
当海量该类无序片段数据需要处理时,不仅需要处理的单个片段多,而且涉及到片段的合并规则,合并后的二次分析、统计以及保存,并且需要保证合并的正确性,单个片段需要验重,保证相同的片段只能被合并一次。不能将不是一个整体的片段合并为一体,因此这是一个复杂的处理过程,因此需要一种高效、快速、逻辑清晰的方法或框架。
发明内容
为了解决上述技术问题,本发明提供了一种海量片段数据汇聚的系统和方法,本发明采用消息队列服务、内存库、文件型数据库及守护进程等多种技术,能够高效的处理和合并海量片段数据。并采用严谨的合并策略,保证合并的正确性。
首先是针对第一种(片段自身无独立意义)海量片段数据的处理:
1、由于片段是某一文件的一部分,因此要带有此文件的唯一标识,好能通过此唯一标识识别出此片段属于哪个文件。本文称其为父ID,将父ID作为上传的片段文件名,每个片段上传时都带有此父ID。此ID将伴随片段数据走完整个处理流程。
2、对于第一种片段(片段自身无独立意义),即被切割为片段的,将被切割的原始文件的MD5值作为文件的唯一标识, 即片段的父ID
3、服务器端接收到片段后,按照片段的MD5值到片段缓存库中进行验重,如果此片段在缓存库中已有,则不处理。即节省了服务器资源,又保证了不重复合并。合并时按照父ID进行合并,即将具有相同父ID的片段合并在一起。
对于第一种海量片段数据,本发明提供了一种海量片段数据汇聚的系统,包括客户端的片段上传模块,服务器端的缓存模块、验证库模块、文件存储模块、片段接收模块、片段处理模块、片段合并模块、片段汇聚模块;
所述片段上传模块将片段数据上传到服务器端,所述片段数据带有片段数据信息,包括片段数据的父ID,所述片段数据的父ID为片段数据所属文件的HASH值;
其中,此模块部署在客户端,按照策略,每个片段都带有父ID,然后将片段上传到服务器端。
所述缓存模块包括3个消息队列,片段数据队列、待合并片段队列和合并结果待处理队列;所述消息队列采用后进先出的原则。
其中,
片段数据队列:片段数据队列存放接收后未作任何处理的片段数据,队列采用后进先出的原则。
待合并片段队列:待合并片段队列存放验重后,等待合并操作的片段数据。队列采用后进先出的原则。
合并结果待处理队列:队列存放已合并后的数据信息,队列采用后进先出的原则。
为了提高队列的读取和写入速度,此处可使用内存级缓存库。
所述验证库模块存放已接收片段数据的HASH值;
其中,此处存放的是验重后的。数据不会有冗余。
所述文件存储模块包括三部分,文件位置库、文件缓存库和文件最终存储库;
所述文件位置库记录已接收到的片段数据信息,以及合并后的文件存放的位置是在文件缓存库中或者在文件最终存储中;文件缓存库存放尚未包含所有片段的文件;文件最终存储库保存包含所有片段的文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京安天电子设备有限公司,未经北京安天电子设备有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110375167.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置