[发明专利]一种基于域自适应的英文场景文字识别方法有效
申请号: | 201510022065.0 | 申请日: | 2015-01-16 |
公开(公告)号: | CN104537362B | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 王春恒;高嵩;肖柏华;史存召 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/66 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 宋宝库 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 英文 场景 文字 识别 方法 | ||
技术领域
本发明涉及模式识别与机器视觉领域中的场景文字识别领域,具体地是一种基于域自适应的英文场景文字识别方法。
背景技术
自然场景图像中包含的文本信息往往包含着关于图像内容的直接指示,近些年,场景文字识别领域越来越引起国际上研究者的重视。现有的方法包括两类,分别是基于光学字符识别的方法和基于目标识别的方法。传统的光学字符识别方法需要先进行二值化,主要针对扫描文档的识别,而基于目标识别的方法因为可以跳过传统的二值化环节而备受青睐。然而由于场景类别的多样性、背景的复杂性、不同光照的影响以及不可预测的字体,场景文字识别的训练集和测试集常常拥有不同的分布,使得在训练集上训练得到的文字分类器较难在测试集上取得理想的结果。
发明内容
为了进一步优化英文场景文字识别效果,本发明提出了一种基于域自适应的英文场景文字识别方法,达到了优良的英文场景文字识别效果。
本发明的一种基于域自适应的英文场景文字识别方法,包括如下步骤:
步骤1,建立位置嵌入词典:
对每一类英文场景文字的训练样本,抽取全图的梯度直方图特征,在每一个类内聚类,从聚类中心上稠密地采集梯度直方图特征块作为位置嵌入词典的码本,记录每一个码本的采集位置,将码本采集位置的附近区 域作为码本的响应区域,基于全部码本建立位置嵌入词典;
步骤2,基于位置嵌入词典的编码和抽取:
给定一幅图像,在对该图像的描述子进行编码时,判断描述子与码本的位置关系,如果某码本覆盖了该描述子的位置,则对应的维度要进行编码,反之,对应的维度则不进行编码;编码之后,在全图范围内进行最大抽取,得到最终的编码向量U;
步骤3,中间域词典的学习:
基于位置嵌入词典对所有的单字训练图像进行编码,在训练集的编码向量上使用K-SVD算法求解重建词典,根据测试集编码向量在该重建词典上的重构误差求解中间域词典;
步骤4,文字分类器的训练和测试:
在文字分类器的训练阶段,先求解训练集的位置嵌入词典编码向量在首个中间域词典的重建系数,使用该系数与所有中间域词典的乘积作为特征训练多类别线性支持向量机;在测试阶段,先求解测试集的位置嵌入词典向量在最后一个中间域词典的重建系数,使用该系数与所有中间域词典的乘积作为特征测试多类别线性支持向量机。
步骤1中,每一幅训练样本都被归一化到相同的高度和宽度,高度记为H,宽度记为W,之后每一幅图像被划分为nh×nw个块,nh是垂直方向划分的块数,nw是水平方向划分的块数。
步骤1中,抽取全图的梯度直方图特征的方法为:对于每一张训练图像,在每一个划分块中抽取维度为nhog的梯度直方图特征,之后连接起来形成一维特征作为该训练图像的整体表示,此一维特征的维度数为 nhog×nhog×nhog。
步骤1中,所述聚类的方法为:类别ci的训练图像数量记作在整体一维特征表示的基础上,使用K均值聚类得到个中心,其中是用来控制聚类数目的参数;对于每一个聚类中心,把整体表示的一维特征再还原回最初的三维特征,三个维度的维数分别为nh,nw,nhog。
步骤1中,所述码本的抽取方法为:从三维聚类中心上按照三个维度分别为nh,d,nw,d,nhog稠密地采集码本,其中nh,d是垂直方向的划分块的数目,nw,d是水平方向的划分块的数目,nhog是梯度直方图特征的维数;码本抽取时按照从左到右、从上向下的顺序,三维矩阵之后被伸展为一维向量即得到码本dj。
步骤1中,所述的位置嵌入词典为:
其中是位置嵌入词典的码本数目,rj是与码本dj对应的响应区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510022065.0/2.html,转载请声明来源钻瓜专利网。