[发明专利]涉密文件检查方法及装置有效
申请号: | 201710611998.2 | 申请日: | 2017-07-25 |
公开(公告)号: | CN110019640B | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 罗治华;方志嘉 | 申请(专利权)人: | 杭州盈高科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/335 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 陈蕾 |
地址: | 310007 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 检查 方法 装置 | ||
1.一种涉密文件检查方法,其特征在于,所述方法包括:
获取涉密指纹库,所述涉密指纹库中包括指定涉密文件对应的涉密指纹;
提取待检文件的文本内容,并对所述文本内容进行分块处理,得到文本分块;
对所述文本分块进行设定运算,得到所述待检文件对应的文件指纹,包括:
针对每一类型的每一个文本分块,对所述文本分块进行哈希运算,将得到的哈希值作为所述文本分块对应的分块指纹;
针对每一类型的文本分块,按照属于同一类型的文本分块在所述文本内容中的排列顺序,将所述属于同一类型的文本分块对应的分块指纹进行排列组合,得到所述每一类型对应的类型指纹;
按照预设顺序,将所述每一类型对应的类型指纹进行排列组合,得到所述待检文件对应的文件指纹;
检查所述涉密指纹库中是否存在满足条件的涉密指纹,所述条件为:与所述待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值;
若所述涉密指纹库中存在满足所述条件的涉密指纹,则确定所述待检文件涉密。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本内容进行分块处理,得到文本分块,包括:
以词组为单位对所述文本内容进行划分,得到第一类型的文本分块;并以句为单位对所述文本内容进行划分,得到第二类型的文本分块;以及,以段落为单位对所述文本内容进行划分,得到第三类型的文本分块。
3.根据权利要求1所述的方法,其特征在于,所述获取涉密指纹库包括:
定期从服务端下载涉密指纹库,所述涉密指纹库是由所述服务端通过以下处理建立:
提取指定涉密文件的涉密文本内容,并对所述涉密文本内容进行分块处理,得到涉密文本分块;
对所述涉密文本分块进行所述设定运算,得到所述指定涉密文件对应的涉密指纹;
根据所述指定涉密文件对应的涉密指纹构建涉密指纹库。
4.根据权利要求1所述的方法,其特征在于,所述获取涉密指纹库包括:包括:
接收服务端在满足设定条件时发送的涉密指纹库,所述设定条件为:接收到客户端发送的获取请求,所述获取请求用于请求获取涉密指纹库;或者,涉密指纹库发生更新。
5.一种涉密文件检查装置,其特征在于,所述装置包括:
获取模块,用于获取涉密指纹库,所述涉密指纹库中包括指定涉密文件对应的涉密指纹;
分块模块,用于提取待检文件的文本内容,并对所述文本内容进行分块处理,得到文本分块;
运算模块,用于对所述文本分块进行设定运算,得到所述待检文件对应的文件指纹,包括:
哈希运算子模块,用于针对每一类型的每一个文本分块,对所述文本分块进行哈希运算,将得到的哈希值作为所述文本分块对应的分块指纹;
第一组合子模块,用于针对每一类型的文本分块,按照属于同一类型的文本分块在所述文本内容中的排列顺序,将所述属于同一类型的文本分块对应的分块指纹进行排列组合,得到所述每一类型对应的类型指纹;
第二组合子模块,用于按照预设顺序,将所述每一类型对应的类型指纹进行排列组合,得到所述待检文件对应的文件指纹;
检查模块,用于检查所述涉密指纹库中是否存在满足条件的涉密指纹,所述条件为:与所述待检文件对应的文件指纹之间的相似度大于或等于预设相似度阈值;
判定模块,用于若所述涉密指纹库中存在满足所述条件的涉密指纹,则确定所述待检文件涉密。
6.根据权利要求5所述的装置,其特征在于,所述分块模块包括:
第一划分子模块,用于以词组为单位对所述文本内容进行划分,得到第一类型的文本分块;
第二划分子模块,用于以句为单位对所述文本内容进行划分,得到第二类型的文本分块;
第三划分子模块,用于以段落为单位对所述文本内容进行划分,得到第三类型的文本分块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州盈高科技有限公司,未经杭州盈高科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710611998.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置及存储介质
- 下一篇:一种医疗否定术语的检出方法及系统