[发明专利]一种基于神经网络的字符粘连验证码的识别方法在审
申请号: | 201710682566.0 | 申请日: | 2017-08-10 |
公开(公告)号: | CN107292311A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 霍华;常国沁;李成;吕靖;李宁波 | 申请(专利权)人: | 河南科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46;G06K9/40;G06T5/30;G06N3/08 |
代理公司: | 洛阳公信知识产权事务所(普通合伙)41120 | 代理人: | 宋晨炜 |
地址: | 471000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 字符 粘连 验证 识别 方法 | ||
技术领域
本发明涉及智能信息处理技术领域,具体地说是一种基于神经网络的字符粘连验证码的识别方法。
背景技术
验证码的发明与使用是为了保证网络的安全,加强对信息的保护,防止有些不法分子通过高性能的硬件设备、特定功能的恶意程序、网络爬虫和网站设计漏洞等各种手段破解账户密码、盗取用户信息、恶意自动注册。与其他的安全验证方式相比验证码所包含的数据量较小,而且有效的提高了网站安全性能及抗攻击能力。验证码是区分计算机和人类的全自动图灵测试程序。
但由于网络的不断发展,验证码也在不断地革新,识别验证码可以了解验证码设计的规律与原理,有助于发现验证码设计的缺陷,以便设计出更安全、更成熟、更加符合用户使用体验的验证码。同时验证码的识别也为需要大量从网络上抓取数据的大数据分析的工作者提供便利,推动相关研究的发展。
网络上的验证码类型有很多种,主要有基于文本模式的、基于图像模式的、基于语音模式和少部分基于视频模式的,以基于文本模式的验证码使用最为广泛。基于文本的验证码最初只包含简单的数字与字母,光学字符识别(Optical Character Recognition,OCR)技术可以将图像中的文本直接提取识别且有良好的识别效果。网络的安全推动着验证码的识别难度不断增加,开始改变字符颜色,增加图像背景,增加图像噪音干扰等等,对于这类验证码可以先对图像进行简单预处理后再使用OCR提取,也有较为不错的效果。
随着验证码的不断发展,开始通过对验证码图像中的文本进行扭曲、粘连等方法来增加其识别的难度。这种类型的验证码的难度在于将粘连的字符进行分割,研究人员提出了很多字符提取算法,例如骨架提取算法,颜色填充法,滴水算法等等,通过这些算法将验证码中的字符进行分割或轮廓的提取,再通过OCR,朴素贝叶斯,支持向量机等进行训练。但是分割效果往往并不理想,从而导致最终的识别正确率不高。
发明内容
本发明所要解决的技术问题是提供一种基于神经网络的字符粘连验证码的识别方法,解决目前验证码字符粘连、背景复杂难以识别的问题。
本发明为解决上述技术问题所采用的技术方案是:一种基于神经网络的字符粘连验证码的识别方法,包括以下步骤:
步骤一、从网站中自动截取一定数量的验证码图片,存入文件夹备用;
步骤二、对存入的验证码图片的图像进行基础预处理,使原始的验证码图像更易于字符切割,具体方法为:
(1)将收集的验证码图片中的彩色图像灰度化;
(2)灰度图像去燥处理:对图像进行腐蚀处理,缩小图像中的噪点,使用门限算法,选择适当的阈值,将图像进行二值化处理,并对二值化处理后的图像取反,最后使用中值滤波法去除图像中的大部分噪点;
(3)定位验证码的大小,对步骤(2)去噪后的图像去除边框;
(4)对去边框后的图像通过连通区域降噪发进一步去除噪声,即选取图像中所有的连通区域,选定一个合适的阈值,去除连通区域较小的噪音,保留连通区域较大的字符;
步骤三、将步骤二预处理后的图像中的字符分割成单个字符,具体方法为:
(1)将步骤二处理后的图像的灰度值进行竖直方向的投影,得到图像竖直方向的投影直方图;
(2)以得到的竖直方向的投影直方图中波谷的位置为字符切割点将字符图像分割为单个字符图像;
(3)将单个字符图像灰度值进行水平方向上的投影,得到单个字符图像水平方向的投影直方图,通过水平方向的投影直方图确定字符的上下边界并进行分割;
步骤四、将分割完的字符图像进行归一化处理;
步骤五、通过人工神经网络对归一化的字符图像进行识别训练;
步骤六、计算识别准确率。
本发明所述步骤五中,对归一化的字符图像进行识别训练的具体方法为:选定BP神经网络作为训练手段,选用三层神经网络结构,即输入层、单个隐含层和输出层,采用随机梯度法的训练类型及自适应的调整学习率进行识别训练。
本发明的有益效果是:本发明通过选择合适的去噪方式及去噪方法的顺序对验证码图像进行预处理,通过不同程度的降噪处理,能很好的将验证码复杂的背景噪声去除,对于粘连的字符的分割也有较好的效果。将腐蚀处理应用到降噪的过程中,不仅去除了背景中的微小颗粒噪声,同时也去除了附着在字符边缘的噪点,使字符轮廓更加清晰;在基础的降噪处理完成后利用连通区域降噪的方法,将中值滤波难以去除的噪点去除,基本可以达到进行零噪声字符分割;使用神经网络的训练验证,该方法对于带有粘连字符的复杂背景验证码有较高的识别率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南科技大学,未经河南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710682566.0/2.html,转载请声明来源钻瓜专利网。