[发明专利]一种基于语义的点选验证码识别方法及其装置在审
申请号: | 201811076100.7 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109033798A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 黄文瀚;程浩;柳超 | 申请(专利权)人: | 北京金堤科技有限公司 |
主分类号: | G06F21/36 | 分类号: | G06F21/36;G06F17/27;G06K9/62;G06N3/08 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王文红 |
地址: | 100000 北京市海淀区知春*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 验证码 点选 语义 验证码图片 短文本 神经网络模型 测试工程师 测试和评价 定位信息 概率矩阵 文本语义 验证方式 字符识别 字符数 准确率 构建 网站 测试 学习 | ||
1.一种基于语义的点选验证码识别方法,其特征在于,包括:
在验证码图片中,获取所述验证码图片中所包含的待选字符的字符数及字符截图,所述验证码图片中所包含的各个待选字符的相应位置顺序是被打乱语序的排序;
构建字符识别神经网络模型,并通过所述字符识别神经网络模型对所述字符截图进行识别,得到识别概率矩阵;
构建短文本语料集;所述短文本语料集中包含有多个不同预设字符数量的短文本对应的文本语料库;
选择与所述字符数对应的文本语料库;
根据所述识别概率矩阵,计算所述文本语料库中的所有文本的非规范化概率,得到概率信息集;
提取所述概率信息集中非规范化概率最大的文本作为所述短文本,并获取待选字符的字符内容和对应的语义顺序;
根据所述短文本,从所述识别概率矩阵中选取相应的待选字符,得到所述验证码图片中每个所述待选字符对应的定位信息,建立待选字符与字符截图以及定位信息的联系。
2.如权利要求1所述基于语义的点选验证码识别方法,其特征在于,所述“根据所述识别概率矩阵,计算所述文本语料库中的所有文本的非规范化概率,得到概率信息集”包括:
根据所述识别概率矩阵,通过非规范化概率计算公式计算所述文本语料库中的所有文本的非规范化概率,得到概率信息集;其中,所述非规范化概率计算公式为:
Ai表示所述文本语料中一短文本序列的第i个汉字,P(Ai)表示当前字是Ai的概率,由所述识别概率矩阵中给出;A0...An表示所述文本语料库中的每一个短文本序列,短文本序列包括N+1个汉字,A0表示短文本序列中第0个汉字,An表示短文本序列中第n个汉字。
3.如权利要求1所述基于语义的点选验证码识别方法,其特征在于,所述“提取所述概率信息集中非规范化概率最大的文本作为所述短文本”包括:
对所述概率信息集中的所有文本,依据所述非规范化概率进行排序,并根据概率提取公式提取其中非规范化概率最大的文本作为所述短文本;其中,所述概率提取公式为:
ArgmaxtextP(text),text∈D;其中,D表示所述文本语料库,text表示所述文本语料库中非规范化概率最大的短文本。
4.如权利要求1所述基于语义的点选验证码识别方法,其特征在于,所述“根据所述短文本,从所述识别概率矩阵中选取相应的待选字符,得到所述验证码图片中每个所述待选字符对应的定位信息”包括:
根据所述短文本和所述字符截图在所述验证码图片中的位置,构建空间位置概率矩阵;
定位出所述空间位置概率矩阵中的所述短文本中的每个待选字对应的最大概率值;
删除所述最大概率值所在的行和列中除所述最大概率值以外的所有数据,得到新的目标概率矩阵区;
根据所述新的目标概率矩阵区确定所述验证码图片中每个所述待选字符对应的定位信息。
5.如权利要求1所述基于语义的点选验证码识别方法,其特征在于,所述“在验证码图片中,获取所述验证码图片中所包含的待选字符的字符数及字符截图”包括:
获取包括预先标记出的每个所述待选字符的最小截图的预设字符训练集;
利用所述预设字符训练集对深度学习检测框架进行训练;
基于所述深度学习检测框架,对所述验证码图片中所包括的待选字符进行框定,得到与所述待选字符对应字符数和字符位置信息;
根据所述字符位置信息获取所述验证码图片中每个所述待选字符的最小截图作为字符截图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811076100.7/1.html,转载请声明来源钻瓜专利网。