[发明专利]一种基于域自适应的英文场景文字识别方法有效
申请号: | 201510022065.0 | 申请日: | 2015-01-16 |
公开(公告)号: | CN104537362B | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 王春恒;高嵩;肖柏华;史存召 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/66 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 宋宝库 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于域自适应的英文场景文字识别方法,其包括步骤1、建立位置嵌入词典;2)基于位置嵌入词典的编码和抽取;3)中间域词典的学习;4)文字分类器的训练和测试。本发明方法先通过建立位置嵌入词典解决传统图像金字塔无法应用于场景文字识别的问题,之后通过非监督词典学习方法对训练域和目标域的分布差异进行内插,从而实现域自适应的英文场景文字识别。 | ||
搜索关键词: | 一种 基于 自适应 英文 场景 文字 识别 方法 | ||
【主权项】:
一种基于域自适应的英文场景文字识别方法,其特征在于,包括如下步骤:步骤1,建立位置嵌入词典:对每一类英文场景文字的训练样本,抽取全图的梯度直方图特征,在每一个类内聚类,从聚类中心上稠密地采集梯度直方图特征块作为位置嵌入词典的码本,记录每一个码本的采集位置,将码本采集位置的附近区域作为码本的响应区域,基于全部码本建立位置嵌入词典;步骤2,基于位置嵌入词典的编码和抽取:给定一幅图像,在对该图像的描述子进行编码时,判断描述子与码本的位置关系,如果某码本覆盖了该描述子的位置,则对应的维度要进行编码,反之,对应的维度则不进行编码;编码之后,在全图范围内进行最大抽取,得到最终的编码向量U;步骤3,中间域词典的学习:基于位置嵌入词典对所有的单字训练图像进行编码,在训练集的编码向量上使用K‑SVD算法求解重建词典,根据测试集编码向量在该重建词典上的重构误差求解中间域词典;所述步骤3中,所述中间域词典的获取方法为:训练集和测试集的图像数目分别记作Ntrain和Ntest,位置嵌入词典DSED共包含的码本数目记作则训练集和测试集的位置嵌入词典编码向量集合分别记为先使用K‑SVD算法求解训练向量集合的重建词典其中Nd是重建词典D0的元素个数;D0将作为中间域词典集合{D0,D1,...,DK}的第一个元素,K+1为中间域词典的个数;根据Dk计算Dk+1,首先计算测试集编码向量在Dk上的最小重建误差Jk,然后根据重建误差Jk计算从Dk计算Dk+1的增量ΔDk,根据ΔDk和Dk计算得到Dk+1=Dk+ΔDk;根据上面的迭代过程,最终得到中间域词典的集合{D0,D1,...,DK}中的每一个元素;步骤4,文字分类器的训练和测试:在文字分类器的训练阶段,先求解训练集的位置嵌入词典编码向量在首个中间域词典的重建系数,使用该系数与所有中间域词典的乘积作为特征训练多类别线性支持向量机;在测试阶段,先求解测试集的位置嵌入词典向量在最后一个中间域词典的重建系数,使用该系数与所有中间域词典的乘积作为特征测试多类别线性支持向量机;所述步骤4中,用于文字分类器训练和测试的特征向量获取方法为:给定一幅训练图像和位置嵌入词典编码向量,求解编码向量在D0上的重建系数α,给定一幅测试图像和位置嵌入词典编码向量,求解的则为编码向量在Dk上的重建系数α,那么使用的特征向量为:f=[(D0α)T,(D1α)T,...,(DKα)T]T。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510022065.0/,转载请声明来源钻瓜专利网。