[发明专利]一种基于鉴别性笔画库的英文场景文字识别方法有效
申请号: | 201510023529.X | 申请日: | 2015-01-16 |
公开(公告)号: | CN104573663B | 公开(公告)日: | 2017-12-05 |
发明(设计)人: | 王春恒;高嵩;肖柏华;史存召 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于鉴别性笔画库的英文场景文字识别方法,其包括步骤1、基于关键点标注的笔画子检测器学习;2、笔画子检测器响应区域的界定;3、鉴别性笔画选取;4、特征提取和文字分类器的训练。本发明参考物体库的思路,通过标记的关键点来为笔画子检测器收集训练样本,并且为每一个文字笔画子检测器设定特定的响应区域,既可以减轻特征抽取的计算负担,又增强了文字分类器的鉴别能力。 | ||
搜索关键词: | 一种 基于 鉴别 笔画 英文 场景 文字 识别 方法 | ||
【主权项】:
一种基于鉴别性笔画库的英文场景文字识别方法,其特征在于,包括步骤:步骤1,基于关键点标注的笔画子检测器学习:首先为每一类英文场景文字设计关键点,并对所有的英文场景文字单字训练样本进行关键点标注,在每一类英文文字类别的训练图像中随机选取一幅图像,在该图像上基于特定笔画构建矩形框,每一个矩形框对应一个特定的笔画,记录这些笔画对应矩形框所包围关键点的集合,定位包围这些关键点的最小矩形,计算该最小矩形和笔画矩形框的长宽比;在确定候选笔画后,根据上述关键点集合和长宽比为每一个候选笔画抽取正样本和负样本,并训练线性支持向量机作为笔画检测器;步骤2,笔画子检测器响应区域的界定:根据正样本抽取的位置,为每一个笔画检测器定义一个响应区域,所述响应区域为包含正样本位置的最小矩形,计算正样本的平均长度和宽度作为笔画检测器滑动窗口大小;步骤3,鉴别性笔画选取:计算每一个笔画检测器在所属文字类别和其他文字类别的训练图像响应区域内的最大响应值,计算文字类别内平均最大响应值和其他文字类别平均最大响应值的差作为笔画的鉴别性参数,依据笔画的鉴别性参数进行大小排序,选取最大的前N个鉴别性参数对应的笔画作为鉴别性笔画;步骤4,特征提取和文字分类器的训练:在所有的英文场景单字训练样本和测试样本上,使用笔画检测器在对应响应区域里的最大响应值作为特征,在该特征的基础上训练和测试线性支持向量机单字分类器;其中,步骤1中所述的矩形框R对应候选笔画ci为英文文字类别标号,j为候选笔画标号;矩形框R包围的关键点集合为将包围关键点集合的最小矩形定义为r;矩形框R的左、右、上、下边界的坐标分别为Rl、Rr、Rt、Rb,r的左、右、上、下边界的坐标分别为rl、rr、rt、rb,r的长度和宽度分别为rwidth=rr‑rl+1和rheight=rb‑rt+1,则从r到R的左、右、上、下四个方向的延拓因子分别是:Efleft=(rl‑Rl+1)/rwidthEfright=(Rr‑rr+1)/rwidthEftop=(rt‑Rt+1)/rheightEfbottom=(Rb‑rb+1)/rheight;步骤1中所述正样本的抽取方法为:定位包围关键点集合的最小矩形r’,假设r’的左、右、上、下坐标分别为r′l,r′r,r′t,r′b,那么r’的长度和宽度分别为r′width=r′r‑r′l+1和r′height=r′b‑r′t+1,则对应笔画正样本的抽取左、右、上、下坐标应该确定为:R′l=rl′+1‑Efleft*r′widthR′r=r′r‑1+Efright*r′widthR′t=rt′+1‑Eftop*r′heightR′b=r′b‑1+Efbottom*r′height每抽取一个正样本,都需要到其他不是ci的文字类别的一幅训练图像上抽取位置相同的图像块作为负样本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510023529.X/,转载请声明来源钻瓜专利网。