[发明专利]日志压缩方法及装置、解压缩方法及装置有效
申请号: | 201410283777.3 | 申请日: | 2014-06-23 |
公开(公告)号: | CN104050269B | 公开(公告)日: | 2017-06-16 |
发明(设计)人: | 乔志刚;高亚明;顾庆荣 | 申请(专利权)人: | 上海帝联信息科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H03M7/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 骆苏华 |
地址: | 200333 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 压缩 方法 装置 解压缩 | ||
技术领域
本发明涉及数据压缩技术领域,特别是涉及一种日志压缩方法及装置、解压缩方法及装置。
背景技术
互联网产生大数据,随着互联网技术的不断发展,数据也将像能源、材料一样,成为战略性资源。如何利用数据资源深挖创新、提升效益,是诸多IT企业的追求目标。互联网所产生的大数据,主要来自于对互联网访问日志的深度分析。因此,对互联网访问日志的收集和存储成为关键。尤其是日志存储,由于不经压缩的原始日志所占存储空间过大,必须对原始日志进行压缩,才能达到长期保存目的。
现有技术中,存在着各种文件压缩方法,可以应用于互联网访问日志记录的压缩。但是,现有的各种文件压缩方法由于为充分考量互联网访问日志的特点,因而存在着压缩率低的问题。
发明内容
本发明实施例解决的问题是如何有效地提高日志文件的压缩率。
为解决上述问题,本发明实施例提供了一种日志压缩方法,所述方法包括:
读取所述日志中的记录,所述记录包括至少一个字段,所述字段中包括至少一个字符组成的字符串;
将所述日志的记录按照字段进行存放,在所存放的记录的字段中添加所述记录在所述日志中的位序信息;
通过将所述日志中记录的所述字段的字符串分别与所选取的基准记录的所述字段中的字符串进行比较,将所述日志中记录的所述字段的字符串进行合并处理,得到合并字符串;
创建压缩文件,所述压缩文件包括所述压缩文件的头信息,所述头信息包括用于标识所述日志压缩方法的标识信息、所述日志中记录的行数信息、所述日志的记录所包括的字段个数的信息;
将所得到的合并字符串进行压缩,并将压缩后的合并字符串按照所述字段在所述记录的位置顺序依次添加到所创建的压缩文件中。
可选地,所述日志的记录的所述字段中的字符串之间有序排列,所述通过将所述日志中记录的所述字段的字符串分别与所选取的基准记录的所述字段中的字符串进行比较,将所述日志的记录的所述字段中的字符串进行合并处理,得到合并字符串,包括:
遍历所述日志的记录的所述字段中的字符串;
在第一位序的记录的所述字段中加入值为零的重复字符个数的信息,得到所述第一位序的记录的所述字段中新的字符串;
将所述日志中非第一位序的记录的所述字段中的字符串与所述第一位序的记录的所述字段中的字符串进行比较,获取并记录二者之间重复字符的个数;
将所述非第一位序的记录的所述字段与所述第一位序的记录的所述字段之间的重复字符去掉,留下非重复字符,得到所述非第一位序的记录的所述字段的新的字符串,所述非第一位序的记录的所述字段的新的字符串包括所述非第一位序的记录的位序信息和所述非第一位序的记录的所述字段与所述第一位序的记录的所述字段之间的重复字符的个数的信息;
以得到的所述第一位序的记录的所述字段中新的字符串作为开头,将所生成的非第一位序的记录的所述字段中新的字符串依次添加到所述第一位序的记录的所述字段中新的字符串之后,且所述第一位序的记录的所述字段中新的字符串与非第一位序的记录的所述字段中新的字符串之间、以及所述非第一位序的记录的所述字段中的新的字符串之间分别设置有分隔标识,得到合并字符串。
可选地,当所述日志的记录的所述字段中的字符串之间无序排列时,将所述日志的记录的所述字段中的字符串进行有序排列,并执行所述通过将所述日志中记录的所述字段的字符串分别与所选取的基准记录的所述字段中的字符串进行比较,将所述日志中记录的所述字段的字符串进行合并处理,得到合并字符串的操作。
可选地,所述通过将所述日志中记录的所述字段的字符串分别与所选取的基准记录的所述字段中的字符串进行比较,将所述日志中记录的所述字段的字符串进行合并处理,得到合并字符串,包括:
遍历所述日志的记录的所述字段中的字符串,获取所述日志的记录中所述字段的字符串;
将所述日志的记录的所述字段中的字符串采用预设字符串进行代替,得到新的字符串,所述预设字符串的字符数量小于所述日志的记录的所述字段中的字符串的字符数量;
将所得到的新的字符串进行合并,得到合并字符串,在所述合并字符串中,所得到的新的字符串之间设置有分隔标识。
一种日志解压缩方法,其特征在于,包括:
获取并解压缩压缩文件中经过压缩的所述日志的记录中所述字段的合并字符串;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海帝联信息科技股份有限公司,未经上海帝联信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410283777.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:建筑工程用便于卸料的推料车
- 下一篇:一种转向架减振器安装工艺