[发明专利]文本文件指纹获取方法及其装置、数据管理方法有效
申请号: | 201410226077.0 | 申请日: | 2014-05-26 |
公开(公告)号: | CN103971061B | 公开(公告)日: | 2017-06-30 |
发明(设计)人: | 彭建芬 | 申请(专利权)人: | 中电长城网际系统应用有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F17/30 |
代理公司: | 北京天昊联合知识产权代理有限公司11112 | 代理人: | 彭瑞欣,张天舒 |
地址: | 102200 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本文件 指纹 获取 方法 及其 装置 数据管理 | ||
技术领域
本发明属于计算机技术领域,特别涉及数据防泄漏领域中的
文本文件指纹获取方法及其装置、数据管理方法。
背景技术
随着信息化程度的提高,企业越来越多地利用计算机创建/处理业务电子信息,并通过网络传输业务电子信息实现企业内部信息共享。但是,该业务电子信息中难免会包含一些隐私信息或敏感信息,在方便快捷的同时也增加了信息被侦听、截获及非法拷贝的危险。而当前企业经营、市场竞争中面临的商业机密安全管理的形势严峻,尤其企业在商业活动中使用的诸如经营分析材料、业务技术策略、营销方案、财务分析报表、投资计划、客户信息、研发文档等隐私信息或敏感信息资源。如果这些企业商业机密信息被竞争对手获取,将给公司的业务关系带来危害,使公司的知识产权遭受损失,带来巨大的信息资产损失成本,同时给公司的声誉造成不良影响。
因此,如何对计算机创建/处理、网络传输的业务电子信息中的隐私信息或敏感信息进行有效保护和及时侦查成为目前亟待解决的技术问题。
发明内容
本发明所要解决的技术问题是针对现有技术中存在的上述不足,提供一种文本文件指纹获取方法及其装置、数据管理方法,能有效提取文本文件的文件指纹,从而对计算机创建/处理、网络传输的业务电子信息中的隐私信息或敏感信息进行有效保护和及时侦查。
解决本发明技术问题所采用的技术方案是该文本文件指纹获取方法,包括:
将文本文件划分为多个文件块,多个所述文件块互不重叠;
抽取所述文件块的杂凑值;
对所述杂凑值进行抽样和组合,获得所述文本文件的杂凑代表值,所述杂凑代表值即所述文本文件指纹。
优选的是,将文本文件划分为多个文件块具体包括:
对所述文本文件中的数据进行处理,将所述文本文件划分为具有k字节大小的所述文件块,k为大于1的自然数、且与杂凑函数的数据处理长度相适配。
优选的是,抽取所述文件块的杂凑值具体包括:
对所述文件块按预设数量字节t和预设固定步长字节ω进行滑动分片形成文件片,k、t和ω满足公式:ω|(k-t),滑动次数n满足公式:n=(k-t)/ω,其中:n为大于等于1的自然数,t为大于等于0的整数、ω为大于1的自然数;
利用杂凑函数对所述文件片进行hash取值,将h1、h2、…、hn、hn+1作为所述文件片的片杂凑值,并将所述片杂凑值中的最大值或最小值或其它取值作为所述文件块的杂凑值。
优选的是,对所述杂凑值进行抽样和组合具体包括:
抽取至少两个所述文件块中的所述杂凑值作为抽样杂凑值;
将所述抽样杂凑值进行组合,并将组合结果作为所述文本文件的杂凑代表值。
优选的是,在将文件划分为多个文件块之前,还进一步包括:
对所述文本文件进行规格化处理,所述规格化处理包括但不仅限于下述操作中的至少一种:
去除所述文本文件的文档中的空行、多余的空格;
去除所述文本文件的文档中的页眉、页脚的部分;
对所述文本文件的表格进行处理,保留表格中的文本字符;
对文档中的图片采用OCR技术进行处理,保留图片中的文字。
进一步优选的是,在对所述文本文件进行规格化处理之前,还进一步包括:
根据文件的文件头判断文件类型,筛选出文本文件,所述文本文件类型包括但不限于.doc、.txt、.ppt或.pdf类型。
一种数据管理方法,采用上述的文本文件指纹获取方法,用于防止含有隐私信息或敏感信息的文件外泄,或侦查含有同一隐私信息或敏感信息的文件的存储位置。
一种文本文件指纹获取装置,包括文件指纹提取单元,所述文件指纹提取单元包括文件分块模块、杂凑计算模块和杂凑抽取模块,其中:
所述文件分块模块,用于将文本文件划分为多个文件块,并将所述文件块划分信息传送至所述杂凑计算模块,多个所述文件块互不重叠;
所述杂凑计算模块,接收所述文件块划分信息,用于抽取所述文件块的杂凑值,并将所述杂凑值传送至所述杂凑抽取模块;
所述杂凑抽取模块,接收所述杂凑值,对所述杂凑值进行抽样和组合,获得所述文本文件的杂凑代表值,所述杂凑代表值即所述文本文件指纹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电长城网际系统应用有限公司,未经中电长城网际系统应用有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410226077.0/2.html,转载请声明来源钻瓜专利网。