[发明专利]多源自增海量数据文件实时采集方法有效
申请号: | 201110334851.6 | 申请日: | 2011-10-28 |
公开(公告)号: | CN103092840A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 王志海;麦菁;辛炜博;徐卸土;王智博 | 申请(专利权)人: | 上海邮电设计咨询研究院有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海世贸专利代理有限责任公司 31128 | 代理人: | 严新德 |
地址: | 200092*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 源自 海量 数据文件 实时 采集 方法 | ||
1.一种多源自增海量数据文件实时采集方法,包括从一个以上数目的服务器数据源上采集自增数据文件的过程,其特征在于:在所述的从一个以上数目的服务器数据源上采集自增数据文件的过程中,采用多线程技术并行采集一个以上数目的服务器数据源上的自增数据文件,采用文件切片技术和文件续传技术对所述的自增数据文件按时间切片,每次采集自增数据文件的增量部分。
2.如权利要求1所述的多源自增海量数据文件实时采集方法,其特征在于:所述的从一个以上数目的服务器数据源上采集自增数据文件的过程包括以下步骤:
步骤1,明确数据生成周期、命名规则和采集方式,并预估每个数据文件的大小,
步骤2,根据数据生成周期、预估数据文件大小及业务需求设定采集时间间隔,
步骤3,按设定的采集时间间隔,以定期轮询的方式检查服务器数据源当前周期的数据文件,采用文件切片技术和文件续传技术采集增量数据,并按步骤1中设定的命名规则以小数据文件的形式存储到本地,并且记录本次采集过程中当前时刻文件字节大小作为下次轮询采集的起始位置,第一次轮询中采集从0字节位置到第一次轮询时刻的数据文件字节位置的数据,
步骤4,采集从上一次轮询中记录的字节位置到当前轮询时刻的数据文件字节位置的数据,循环读取,直到下一个周期数据文件生成,
步骤5,在步骤4中所述的周期数据文件的生成时刻,进行最后一次轮询采集,
步骤6,将采集到的文件按设定的命名规则以小数据文件存储到指定目录,并直接加载数据库或者备份至服务器,
步骤7,对于N个服务器数据源,采用多线程技术,按照步骤3-步骤6进行并行采集,
步骤8,对于多个数据类别,按照步骤1-步骤7,采用多线程技术或多进程技术实现并行采集。
3.如权利要求2所述的多源自增海量数据文件实时采集方法,其特征在于:
所述的步骤1中的数据源包括:
有N个数据源对应N台服务器,
数据以文件形式分别存储在N个服务器上,
数据在一个周期生成一个数据文件,
数据文件在周期内实时写入增长,直到下一周期数据文件创建,
数据文件命名包括唯一标识规则,按照YYYYMMDDHHMMSS.XXXX格式命名,YYYYMMDDHHMMSS是时间周期特征,XXXX数据类别特征。
4.如权利要求2所述的多源自增海量数据文件实时采集方法,其特征在于:根据所述的步骤2中的采集时间间隔定义文件切片的粒度。
5.如权利要求2所述的多源自增海量数据文件实时采集方法,其特征在于:所述的步骤3中的文件切片技术是将文件按照等时间间隔切割成一个个文件切片,每次记录切割的字节位置作为下次切片采集的起始字节位置,文件续传技术是在文件每次切割的时间点,采集从上次采集记录的字节位置到当前时间文件最大字节位置的数据切片。
6.如权利要求2所述的多源自增海量数据文件实时采集方法,其特征在于:
所述的步骤6中的命名规则包括:
数据文件命名包括唯一标识的要素,按照YYYYMMDDHHMMSSECPN_HHMMSS.XXXX格式命名,YYYYMMDDHHMMSS为数据时间周期特征,XXXX为数据类别特征,ECPN为数据源特征,_HHMMSS为采集时间特征,数据时间周期特征和数据类别特征来源于数据源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海邮电设计咨询研究院有限公司,未经上海邮电设计咨询研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110334851.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高压并联电抗器与底座的固定装置
- 下一篇:一种光电温度传感装置