[发明专利]一种基于深度学习的图形验证码识别方法有效
申请号: | 201910301765.1 | 申请日: | 2019-04-16 |
公开(公告)号: | CN110009057B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 王海舟;杨振宇;顾艾婧;黄港;傅瑞华;王奇 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 刘凯;裴娟 |
地址: | 610064 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 图形 验证 识别 方法 | ||
本发明公开了一种基于深度学习的图形验证码识别方法,包括以下步骤:S1、获取若干待识别的真实图形验证码,并对其进行预处理后组成真实验证码数据集;S2、基于真实验证码数据集训练生成式对抗网络并生成有标注信息的模拟验证码数据集;S3、选取图形验证码识别网络,并利用模拟验证码数据集对其进行训练;S4、通过真实验证码数据集和模拟验证码数据集对训练好的图像验证码识别网络进行验证和测试,实现图形验证码的识别。本发明方法无需人工对验证码数据集进行标注,通过生成式对抗网络对验证码进行自动标注,进而获取用于训练验证码识别网络的数据集,使训练得到的验证码识别模型有较好的识别效果和泛化能力。
技术领域
本发明属于验证码识别技术领域,具体涉及一种基于深度学习的图形验证码识别方法。
背景技术
图形验证码(CAPTCHA)在互联网中的应用十分普遍,无论是账户登录、信息检索、资料下载,甚至是用户在登录后进行某些功能的频繁操作,网站或客户端程序都可能会要求用户输入验证码来进行下一步操作。总的来说,验证码属于“图灵测试”的一种,利用人对图像、字符等高效识别能力,用以确认操作是否由“人”来发起的,而计算机对字符的识别,则需要采用各种机器学习方法(如SVM、神经网络等)在经过大量训练后才能在某些数据集上得到有效的识别效率。通过人机验证,以达到防止用户恶意行为,如不法分子通过脚本程序等信息爬取来窃取信息,或是黄牛进行大量刷票来进行不当牟利,以及网络垃圾(如广告、色情等)的传播。
图形验证码的形式多种多样,目前常见的有字符识别(中、英文)式、滑块拼图式、选词式、场景识别式等,但字符型验证码仍然是应用范围最广的验证码形式之一。从最开始的简单字符变形,到逐渐增加其扭曲程度、添加多种干扰线与噪声方式,进行字符叠加粘连等,增加机器识别的难度。最初的一些机器学习方式(SVM,OCR光学字符识别等)在现如今的高度复杂的验证码场景下已经无法进行有效识别。
目前对于验证码识别的主流方式正在逐渐向深度学习方向靠拢,例如利用CNN卷积神经网络进行有分割或端到端的验证码识别,识别流程可概括为:1、预处理:通过灰度化、二值化等,利用最大类间方差等方法分离背景,然后对处理后的图片利用连通域分隔法进行去噪。2、定位,字符分割:通过泛水填充法等去除字符粘连并进行字符分割。3、卷积神经网络进行识别:通过定义分类任务将验证码作为神经网络的输入进行分类训练,得到较高识别率的模型。
虽然目前CNN对于特定验证码的识别效果要优于传统的机器学习算法,但其依赖于大量训练集,例如采用LeNet-5三层卷积网络来对普通的4位验证码进行识别,需要近百万的训练集才能达到预期的识别效果,并且训练好的模型不具备泛化能力,对有标注训练集的高度依赖极大地增加了模型训练的成本。
综上,已有的验证码识别方法存在如下问题:
1、依赖于大量标注好的训练集;
2、识别效果、泛化能力不足。
发明内容
针对现有技术中的上述不足,本发明提供的基于深度学习的图形验证码识别方法解决了现有的图形验证码识别方法识别成本高且识别效果和泛化能力不足的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于深度学习的图形验证码识别方法,包括以下步骤:
S1、通过网络爬虫获取若干待识别的真实图形验证码,并对其进行预处理后组成真实验证码数据集;
S2、基于真实验证码数据集训练生成式对抗网络并生成有标注信息的模拟验证码数据集;
S3、选取图形验证码识别网络,并利用模拟验证码数据集对其进行训练;
S4、通过真实验证码数据集和模拟验证码数据集对训练好的图像验证码识别网络进行验证和测试,得到优化后的图形验证码识别网络,实现图形验证码的识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910301765.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种社交账号的分类方法及分类装置
- 下一篇:一种停车场车牌识别系统及方法