[发明专利]一种基于OCR技术的计算机终端保密检查方法在审
申请号: | 201810865946.2 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109284756A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 李昌利;贾乾;刘翔 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/38;G06K9/40;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 葛潇敏 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机终端 保密 服务器 文件解析模块 分类识别 图像 特征提取模块 图像处理模块 待检测文件 服务器发送 关键字匹配 检查请求 检查系统 图像类型 图像文本 退出系统 文本匹配 文件利用 信息显示 字符特征 检查 复杂度 文本 记录 | ||
1.一种基于OCR技术的计算机终端保密检查方法,其特征在于包括以下步骤:
步骤1,处于保密检查网络中的计算机终端向服务器发送保密检查请求,服务器响应该检测请求后对计算机终端进行连接;
步骤2,服务器对计算机终端的信包括连接时间和IP地址进行记录,并保存在数据库中,服务器利用文件解析模块判断待检测文件的类型;
步骤3,把服务器利用文件解析模块判断出属于图像类型的文件,利用图像处理模块进行处理,具体包括:
若图像是高斯噪声图像,采用均值滤波与中值滤波融合的方法进行加权去噪处理,得到去噪后的图像;
若图像是复杂背景图像,字符图像进行二值化处理分割图像的前景区域和背景区域;
若图像是倾斜图像,对图像进行压缩并选取部分图像进行Hough变换,得到校正后的图像;
步骤4,对处理后的图像利用图像切分模块对图像文本进行切分;
步骤5,将切分后的文本利用特征提取模块提取字符特征并进行分类识别;
步骤6,对分类识别划分后的字符利用文本匹配模块进行关键字匹配,如果含有关键字,那么将获取的信息显示到计算机终端界面,否则直接退出系统。
2.如权利要求1所述的一种基于OCR技术的计算机终端保密检查方法,其特征在于:所述步骤2中,如果文件类型是压缩文件,则将压缩文件解压,对于压缩文件中的每个文件重新判断文件类型;如果文件类型是非图像文件,则解析出文件数据库的内容;如果文件类型是图像文件,则利用图像处理模块进行处理。
3.如权利要求1所述的一种基于OCR技术的计算机终端保密检查方法,其特征在于:所述步骤3中,若图像是高斯噪声图像,采用均值滤波与中值滤波融合的方法进行加权去噪处理,得到去噪后的图像的具体过程是:
步骤3.1.1,设定3×3窗口,在含高斯噪声图像中获取窗口内每个位置的像素值;
步骤3.1.2,分别计算3×3窗口均值与中值;
步骤3.1.3,根据得到的均值与中值数据,赋予它们不同的权值进行加权计算,将计算的结果设为中心点位置的像素值;
步骤3.1.4,重复以上步骤对整个图像进行去噪处理。
4.如权利要求1所述的一种基于OCR技术的计算机终端保密检查方法,其特征在于:所述步骤3中,若图像是复杂背景图像,字符图像进行二值化处理分割图像的前景区域和背景区域的具体过程是:
步骤3.2.1,使用全局阈值的方法计算整个图像阈值T,并求出聚类中心T1;
步骤3.2.2,根据步骤3.2.1中计算的阈值设置重新阈值的区域,以c、d为变量,对整个图像进行判断,判断方法如下:
(1-c)T≤f(x,y)≤(1+c)T
(1-d)T1≤f(x,y)≤(1+d)T1
其中c、d为预设的参数;若满足以上不等式,则进行步骤3.2.3;否则该像素点根据全局阈值法进行二值化处理;
步骤3.2.3,在满足上述公式时,采用改进的Bernsen算法进行局部阈值;
步骤3.2.4,重复以上步骤对整个图像进行二值化处理。
5.如权利要求4所述的一种基于OCR技术的计算机终端保密检查方法,其特征在于:所述步骤3.2.4中,通过全局阈值法对图像进行二值化处理,并将处理后的结果继续采用改进的Bernsen算法进行二值化的处理操作,去除复杂背景以便得到效果更佳的前景图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810865946.2/1.html,转载请声明来源钻瓜专利网。