[发明专利]一种针对保密文件的识别方法在审

专利信息
申请号: 201910528848.4 申请日: 2019-06-18
公开(公告)号: CN112100630A 公开(公告)日: 2020-12-18
发明(设计)人: 冯迪;汤丹;支劲超;顾梅 申请(专利权)人: 国网江苏省电力有限公司常州供电分公司;国网江苏省电力有限公司;国家电网有限公司
主分类号: G06F21/60 分类号: G06F21/60;G06F16/16;G06K9/34
代理公司: 常州市江海阳光知识产权代理有限公司 32214 代理人: 陆文俊
地址: 213003 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 保密 文件 识别 方法
【说明书】:

发明涉及一种针对保密文件的识别方法,包括如下几个步骤:第一步、预处理;第二步、文本检测;第三步、光学字符识别;第四步、从照片中提取关键字,查看是否为涉密文件;第五步、通过保密文件的OCR模板查看是否为涉密文件;第六步、EXIF信息附助;第七步、设置可疑系数,上传至后台管理员;第八步、文档部分查询;第九步、提高扫描效率。本发明针对保密文件的检测,不仅利用现有的OCR技术,而且针对保密文件的特性,生成了多套模板,提高了保密文件的识别率,以及解析速度。

技术领域

本发明涉及文件识别领域,特别涉及一种一种针对保密文件的识别方法。

背景技术

一直以来,基于纸质涉密文件的管理,各公司有一套严谨的管理制度,使得保密工作有条不紊进行着。随着技术的发展,电子文档普及后,为了保障文档的安全存储,通常开始统一使用特殊加密U盘,使用者必须输入用户名和密码,完成登陆后,才可以查看文件,这样也基本杜绝了电子文件外泄。

但是,随着技术的发展,新时期的保密工作,早已不再是管理好单纯的纸质文件和电子文档了。高像素,智能手机的普及,给文件保密工作带来了新的难题。

在文件的流转过程中,部分人员只需要使用随身携带的智能手机,对着电脑显示器,或是纸质文件,轻松一拍,就能得到高清画质的内容图片。此前,发生过一些内部文件的外泄事情,主要就是手机翻拍图片,传至互联网上,带来恶劣的影响。

基于这样的情况,一方面,我们要进一步完善涉密文件的管理,加强员工教育,禁止员工将涉密文件以任何形式存入手机。另一方面,我们是不是也应该积极利用新兴技术,加强对手机照片、指定格式文档的监控处理。

发明内容

本发明要解决的技术问题是提供一种识别率高且可靠性较好的针对保密文件的识别方法。

实现本发明目的的技术方案是提供一种针对保密文件的识别方法,包括如下几个步骤:

第一步、预处理:首先需要接收图像相关数据,使其水平竖直方向垂直,接下来使用算法进行检测是否为保密文件,最终二值化方便识别;

有三种方案可以来识别图像;1. 高阈值的自适应二值化技术; 2. 卷积神经网络(CNN); 3. Haar特征分类器;

第二步、文本检测:有两种方案来完成文本检测;1.通过链接组件检测文本;2.使用网格对文本进行检测;先用连接组件算法,然后用网络方法对结果进行优化;

第三步、光学字符识别:使用卷积神经网络(CNN)接收相关字体进行培训,输出部分,通过对比来提升概率:使用涉密文件常用字体作为人工识别样本进行训练,根据保密文件的特性,很多文字是等宽的,使用图片非均匀分割技术得到每一个字的近似宽度,给出一个近似的分类,然后再用卷积神经网络文法识别;

第四步、从照片中提取关键字,查看是否为涉密文件;

第五步、通过保密文件的OCR模板查看是否为涉密文件:通过常规的OCR算法,的确可以查找到部分文件;但是图像处理是一个很复杂的过程,为了提高软件的识别率;配套使用了识别模板;然后使用模板匹配法去处理图片;

保密文件的顶部一般有“保密“字样,使模板和原图中同样大小的一块区域去对,然后平移到下一个像素,依然进行同样的操作,所有位置对比完后,可以得到匹配度的数值,然后可以设置阈值对比;

第六步、EXIF信息附助:通过预读图片文件的EXIF信息,得到图片拍摄的地理位置信息;对于工作时间、办公区域附近生成的图片将加强解析,这样可以进一步提高扫描检测准确性。

进一步的,第一步中,优选高阈值的自适应二值化技术。

进一步的,第四步中,根据预定义的关键词,包括机密、秘密、内部事项、薪酬、规划,检验是否为涉密文件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司常州供电分公司;国网江苏省电力有限公司;国家电网有限公司,未经国网江苏省电力有限公司常州供电分公司;国网江苏省电力有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910528848.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top