[发明专利]涉密文件检查方法及装置有效
申请号: | 201710611998.2 | 申请日: | 2017-07-25 |
公开(公告)号: | CN110019640B | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 罗治华;方志嘉 | 申请(专利权)人: | 杭州盈高科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/335 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 陈蕾 |
地址: | 310007 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 检查 方法 装置 | ||
本申请提供一种涉密文件检查方法及装置,该方法包括:获取涉密指纹库,所述涉密指纹库中包括指定涉密文件对应的涉密指纹;提取待检文件的文本内容,并对所述文本内容进行分块处理,得到文本分块;对所述文本分块进行设定运算,得到所述待检文件对应的文件指纹;检查所述涉密指纹库中是否存在满足条件的涉密指纹,所述条件为:与所述待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值;若所述涉密指纹库中存在满足所述条件的涉密指纹,则确定所述待检文件涉密。应用该方法,可以提高对文件进行涉密检查的精准度,降低保密检查人员的工作负担。
技术领域
本申请涉及信息技术领域,尤其涉及一种涉密文件检查方法及装置。
背景技术
随着计算机技术和网络技术的迅速发展,信息安全问题日益突出,尤其是对于涉密文件的保护方面越来越多的受到人们的重视。现有技术中,可以使用基于关键字词匹配的方式,对网络设备,例如个人电脑、打印机、扫描仪等中所存储的文件进行检查,以检查出涉密的文件。
上述所描述的基于关键字词匹配的方式,可以最大限度地将网络设备中携带关键字词的文件检查出来,但由于关键字词的范围并不十分准确,从而基于该种方式,所得到的检查结果中将包含大量的误报信息,同时,为了提高对文件进行涉密检查的精准度,保密检查人员将不可避免再通过人工检查的方式进行二次检查,增加了保密检查人员的工作负担。
发明内容
有鉴于此,本申请提供一种涉密文件检查方法及装置,以提高对文件进行涉密检查的精准度,降低保密检查人员的工作负担。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,本申请提供一种涉密文件检查方法,所述方法包括:
获取涉密指纹库,所述涉密指纹库中包括指定涉密文件对应的涉密指纹;
提取待检文件的文本内容,并对所述文本内容进行分块处理,得到文本分块;
对所述文本分块进行设定运算,得到所述待检文件对应的文件指纹;
检查所述涉密指纹库中是否存在满足条件的涉密指纹,所述条件为:与所述待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值;
若所述涉密指纹库中存在满足所述条件的涉密指纹,则确定所述待检文件涉密。
在一实施例中,所述对所述文本内容进行分块处理,得到文本分块,包括:
以词组为单位对所述文本内容进行划分,得到第一类型的文本分块;并以句为单位对所述文本内容进行划分,得到第二类型的文本分块;以及,以段落为单位对所述文本内容进行划分,得到第三类型的文本分块。
在一实施例中,所述对所述文本分块进行设定运算,得到所述待检文件对应的文件指纹,包括:
针对每一类型的每一个文本分块,对所述文本分块进行哈希运算,将得到的哈希值作为所述文本分块对应的分块指纹;
针对每一类型的文本分块,按照属于同一类型的文本分块在所述文本内容中的排列顺序,将所述属于同一类型的文本分块对应的分块指纹进行排列组合,得到所述每一类型对应的类型指纹;
按照预设顺序,将所述每一类型对应的类型指纹进行排列组合,得到所述待检文件对应的文件指纹。
在一实施例中,所述获取涉密指纹库包括:
定期从所述服务端下载涉密指纹库,所述涉密指纹库是由所述服务端通过以下处理建立:
提取指定涉密文件的涉密文本内容,并对所述涉密文本内容进行分块处理,得到涉密文本分块;
对所述涉密文本分块进行所述设定运算,得到所述指定涉密文件对应的涉密指纹;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州盈高科技有限公司,未经杭州盈高科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710611998.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置及存储介质
- 下一篇:一种医疗否定术语的检出方法及系统