[发明专利]一种基于自监督学习的验证码识别器的训练方法和装置有效
申请号: | 202010075467.8 | 申请日: | 2020-01-22 |
公开(公告)号: | CN111259366B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 熊涛 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F21/36 | 分类号: | G06F21/36;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 验证 识别 训练 方法 装置 | ||
本发明实施例提供了一种计算机执行的验证码识别器的训练方法和装置,其中验证码识别器包括特征提取器和分类器。特征提取器通过自监督方式进行训练,训练过程包括,首先获取无标签的验证码图像;将验证码图像划分为多个图块。利用特征提取器分别提取各个图块的特征,得到各个图块的编码向量。从多个图块中选取连续的图块序列,利用回归网络,基于图块序列中前面若干图块的编码向量,确定隐含向量,并基于该隐含向量确定序列中后续图块的预测向量。然后,基于后续图块的编码向量和预测向量,确定预测损失;根据该预测损失,训练特征提取器和回归网络。在训练好特征提取器后,基于特征提取器,利用有监督的方式训练分类器。
技术领域
本说明书一个或多个实施例涉及机器学习领域和数据安全领域,尤其涉及利用机器学习和数据安全的验证码识别方法和装置。
背景技术
验证码于2003年首次提出,旨在区分人与自动化计算机程序。验证码是一种很难用计算机求解的测试,但对于人类来说却很容易。随着Internet的发展,验证码已在Web应用程序中广泛使用,以保护安全性,防止数据被盗和密码破解。尽管已经提出了许多替代基于文本的验证码的方法,但是基于文本的验证码仍然是许多网站的首选身份验证机制。因此,对验证码方案的成功攻击将对网站造成严重破坏。
验证码图像通常由三部分组成,前景层,字符层和背景层。前景层和背景层主要包含一些干扰项,例如遮挡线,噪点和噪点背景。字符层包含有用的信息,这些信息还添加了额外的安全性功能,例如字体,大小,颜色,旋转,变形和重叠。验证码的安全功能对于阻止自动攻击至关重要。
在过去的十年中,已提出了多种不同的破解验证码的方法,其中许多方法需要手动调整过滤和分段以实现字符识别。但是,这些方法不再适用,因为文本验证码借鉴了以前的失败经验,并引入了更复杂的安全功能。并且一些基于深度学习的方法在字符识别的准确性上取得了显着的进步,但是需要收集大量样本并手动标记它们,这需要大量的人工成本。此外,针对特定验证码方案而训练的识别器鲁棒性很差,很难直接应用到其他验证码方案。
因此,希望能有改进的方案,得到更好的验证码识别器,能够对验证码进行准确识别。这样的验证码识别器可以用于对验证码进行安全性测试,增强安全性。
发明内容
本说明书一个或多个实施例描述了一种计算机执行的验证码识别器的训练方法和装置,其中结合非监督学习和表示学习,大大降低训练样本的标注成本,得到的验证码识别器可以自动去除验证码的嘈杂背景并识别基于文本的验证码。
根据第一方面,提供一种训练验证码识别器的方法,所述验证码识别器包括特征提取器和分类器,所述方法包括:
获取无标签的第一样本集,其中包括多个第一样本,每个第一样本对应一个验证码图像;
对于各个第一样本,将对应的验证码图像划分为多个图块;
利用所述特征提取器分别提取各个图块的特征,得到各个图块的编码向量;
从所述多个图块中选取连续的图块序列,利用回归网络,基于所述图块序列中前面若干图块的编码向量,确定隐含向量,基于所述隐含向量确定所述图块序列中后续图块的预测向量;
基于所述后续图块的编码向量和预测向量,确定第一预测损失;
根据各个第一样本对应的第一预测损失,训练所述特征提取器和所述回归网络;
基于训练好的特征提取器,训练所述分类器。
在一个实施例中,通过以下步骤训练分类器:获取有标签的第二样本集,其中包括多个第二样本,每个第二样本对应一个验证码图像,且具有标注的真实字符;对于各个第二样本,将对应的验证码图像输入训练好的特征提取器,得到第二样本的特征向量;将所述特征向量输入所述分类器,预测其中的字符;基于预测的字符和所述真实字符,确定第二预测损失;根据第二预测损失,更新所述分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010075467.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图标管理方法及智能终端
- 下一篇:软包电池的制造方法