[发明专利]一种通用的文本数据处理方法在审
申请号: | 201611094779.3 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106776512A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 邱建波 | 申请(专利权)人: | 浪潮通信信息系统有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F9/445;G06F11/32 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 孟峣 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通用 文本 数据处理 方法 | ||
1.一种通用的文本数据处理方法,其特征在于,其实现过程为:
将采集的文本进行对象化解析,采用统一的配置文件描述来定义文本解析的内容;
对文件采集和处理过程进行监控,及时发现文本异常,当文件出现异常时发出告警。
2.根据权利要求1所述的一种通用的文本数据处理方法,其特征在于,将采集的文本进行对象化解析的过程为:
一、首先读取配置文件,组织定义配置文件的信息:确定文件标题名称、分隔符以及输出和处理方式;
二、获取一行数据,查看是否有备份,如果有则拼接备份,然后进入下一步,没有则直接进入下一步;
三、按分隔符拆分,查看分割数组和定义是否相同,相同则根据定义的输出进行数据处理,自动生成入库控制文件。
3.根据权利要求2所述的一种通用的文本数据处理方法,其特征在于,在组织定义配置文件的信息中,根据文件标题名称获取相应的配置文件,然后对配置文件用xml包解析,获取我们需要的文件标题、分隔符、输出字段排序、以及每个字段来源和相应的处理函数。
4.根据权利要求2所述的一种通用的文本数据处理方法,其特征在于,所述配置文件,包含文本自身字段和后期处理字段,并且包含文件的ftp来源信息,其中后期处理字段为处理、拆分或者合并的字段,即根据文件类型的字段个数来处理数据换行问题,非文件来源的按里面填写的函数和参数来处理。
5.根据权利要求2所述的一种通用的文本数据处理方法,其特征在于,步骤三的具体过程为:
A、打开配置文件开始解析,每读一行line,根据分隔符拆分,判断分割数组长度是否和文件标题一致并且包含结尾符;
B、如果拆分长度不一致或者没有发现结尾符,转到A;
C、拆分长度一致并包含结尾符,加载输出排序列表,根据字段对应的函数进行后期处理,然后根据文件记录数约束写入入库数据文件和入库控制文件。
6.根据权利要求1所述的一种通用的文本数据处理方法,其特征在于,对文件采集和处理过程进行监控时,按文件采集粒度对文件进行监控,按粒度来进行数据和文件大小比对,及时发现采集文件异常。
7.根据权利要求6所述的一种通用的文本数据处理方法,其特征在于,对文件采集和处理过程进行监控的具体过程为:
遍历接口列表,根据时间粒度对前后文件的数量和记录数进行比对,对有偏差的数据写入告警文件;
当接口列表遍历结束,生成所有采集接口报告,判断告警文件大小,如果不为空,则根据配置对相应人员进行告警提醒。
8.根据权利要求7所述的一种通用的文本数据处理方法,其特征在于,有偏差的数据获取并告警过程为:
首先获取一个接口信息,根据接口编号读取当前粒度文件日志;
检查文件记录数,等于0则写入告警文件;
把当前粒度与上一粒度记录进行比对,偏差过大则写入告警文件;
统计当前粒度文件类型数与上一文件数,如果不相等则写入告警文件。
9.根据权利要求8所述的一种通用的文本数据处理方法,其特征在于,所述粒度偏差是指采集数据文件大小偏差超过0.05~5%时,写入告警文件。
10.根据权利要求7所述的一种通用的文本数据处理方法,其特征在于,遍历接口列表的过程为:
根据接口ID,获得当前的文件数,上一次采集时间和采集总数;
根据当前时间和上次采集时间对文件两次同一类型文件采集的数量进行对比和计算;
如果当前采集总文件数为0,写入告警文件;循环判断每个类型文件大小异常情况,如果偏差大于0.05%,将相关信息写入告警文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮通信信息系统有限公司,未经浪潮通信信息系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611094779.3/1.html,转载请声明来源钻瓜专利网。