[发明专利]一种针对复杂背景的文本验证码自动识别方法有效

专利信息
申请号: 202010495757.8 申请日: 2020-06-03
公开(公告)号: CN111652233B 公开(公告)日: 2023-04-25
发明(设计)人: 王瑶;王佰玲;魏玉良;张茗晋;辛国栋;王巍 申请(专利权)人: 哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司
主分类号: G06V20/62 分类号: G06V20/62;G06V10/26;G06V10/82;G06V10/30;G06N3/045;G06N3/0475;G06N3/044;G06N3/048;G06N3/082
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 杨磊
地址: 264209 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 复杂 背景 文本 验证 自动识别 方法
【说明书】:

本发明涉及一种针对复杂背景的文本验证码自动识别方法,包括:验证码去噪模块通过循环生成式对抗网络去除真实验证码的复杂安全特征;字符分割模块使用图像处理算法将整体验证码图片分割为单个字符;分割后的字符送入文本识别网络得到最终输出。本发明提出的文本验证码自动识别方法可以快速有效的识别带有背景噪声、字符扭曲、边缘模糊的文本类型验证码,具有高度泛化性和可移植性,可以简单的嵌入到爬虫算法中,解决数据获取过程中遇到的验证码问题。

技术领域

本发明涉及一种针对复杂背景的文本验证码自动识别方法,属于验证码识别技术领域。

背景技术

大数据时代,数据源是进行大数据分析和数据挖掘的必要条件,在互联网中手动寻找有用数据耗时耗力。爬虫技术可以自动从互联网中获取我们感兴趣的数据内容,并将这些数据爬取回来作为数据源,从而进行更深层次的数据分析。验证码作为一种防止自动化程序的措施,是爬虫过程中的主要制约因素。目前网络上仍广泛使用字符型验证码,因此对该类型验证码全自动、端对端的识别方法变得尤为重要。

现有的验证码自动识别算法通常包括三大类:特定类型验证码攻击算法、基于字符分割的算法、基于深度学习的方法。其中特定类型的攻击算法只能识别单一类型的验证码图片(例如:微软验证码),不能泛化到其他类型,因此很难应用于工程领域;基于字符分割的算法一般使用传统的图像处理算法对验证码图片进行预处理(例如:灰度化、二值化等),由于传统图像处理具有局限性,不能有效的去除背景干扰,会导致字符分割困难以及识别准确率低的问题;近年来,随着深度学习的发展,基于神经网络模型的验证码识别技术取得了很好的效果,但该类方法目前仍然存在两个主要问题:第一,现有的基于深度学习模型的验证码识别方法大多采用监督学习的方式,需要大量的有标注数据进行训练(一般情况下不小于50000张),十分耗费时间和人力。在标注样本不足的情况下极易出现过拟合的现象,导致模型无法收敛,准确率很低;第二,目前已存的验证码识别方法中,对规则的以及带轻微噪声的文本验证码识别取得了较高的准确率,但不能很好的识别带有复杂安全特征的文本验证码类型。

此外,中国专利文件CN107967475A公开了一种基于窗口滑动和卷积神经网络的验证码识别方法。首先收集少量验证码图片,降噪后抠出验证码需要识别的字符集,将每个字符集进行旋转、扭曲,增加背景噪音,然后针对这些字符集利用卷积神经网络进行训练,得到一个单字符分类器。最后对需要识别的验证码图片预处理后进行连通域分割,针对每个连通域,进行窗口滑动,利用之前训练的单字符分类器进行分类,得到识别最终结果。中国专利文件CN110555298A公开了一种验证码识别装置以及计算设备,该验证码识别模型训练方法包括:获取具有相同验证码长度的验证码图像样本,并确定与验证码图像样本相对应的字符样本标签;确定组成字符样本标签的验证码字符以及验证码字符的属性值,并获取验证码字符的字符类型信息;根据字符类型信息和属性值对字符样本标签进行编码以得到编码样本标签;利用验证码图像样本和编码样本标签训练用于识别验证码图像的验证码识别模型。但是,以上两种专利文件提到的方法均采用传统图像处理算法对验证码图片进行预处理,这种方法只适用于不带有明显噪声的情况,而对于具有复杂安全特征的验证码类型不能有效的去除噪声干扰,因此,严重影响字符分割和识别的准确率。

发明内容

针对上述现有验证码识别技术存在的问题,尤其是带有复杂安全特征的文本验证码不能很好的去噪声,少量标注情况下扭曲变形的文本验证码识别效果较差的问题。本发明提出一种针对复杂背景的文本验证码自动识别方法。具有标注样本少,处理时间短,识别准确率高的特点,解决了现有算法需要大量人工标注以及对背景复杂、扭曲变形的字符识别效果差的问题,具有广泛的应用前景。该方法结合验证码去噪模块、字符分割模块、验证码识别模块为一体,实现端对端的文本验证码自动识别。该方法仅需少量标注样本(500张)即可获得较高的识别准确率,同时对噪声和扭曲验证码有较好的识别效果。本发明提出的验证码识别方法具有较好的泛化性,能在保证模型结构不变的前提下应用于不同类型的文本验证码中。同时,该模型可以简单的嵌入到爬虫算法中,快速高效的解决企业以及个人在获取数据时遇到的文本验证码反爬虫问题。

本发明的技术方案如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司,未经哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010495757.8/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top