[发明专利]一种基于空间变换的自然场景下文本识别方法有效
申请号: | 201610072466.1 | 申请日: | 2016-02-02 |
公开(公告)号: | CN105740909B | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 白翔;石葆光;张新浩 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 华中科技大学专利中心42201 | 代理人: | 曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 空间 变换 自然 场景 文本 识别 方法 | ||
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于空间变换的自然场景下文本识别方法。
背景技术
人们在生产和生活中,会接触到大量的自然场景下的文字,像路标、广告牌、产品包装等,这些文字包含着丰富的信息,自动地获取图像中的文字信息可以帮助人们更有效地理解图像,提取这些文字信息具有非常重要的实用价值,对无人驾驶、自动获取地理位置以及基于图像的自动翻译等都有着很强的实用性。自然场景图像背景通常比较复杂,文字分布不规律,且容易受到拍摄角度及光照等因素的影响,因此自然场景中的文本分析一直是计算机视觉技术领域的难点之一。
发明内容
本发明的目的在于提供一种基于空间变换的自然场景下文本识别方法,该方法文本识别准确率高,适应能力强。
为实现上述目的,按照本发明的一个方面,提供了一种基于空间变换的自然场景下文本识别方法,包括下述步骤:
(1)训练得到文本识别的参数,所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型:
(1.1)标记训练图像集中所有文本图像的文本内容,得到训练数据集;
具体地,对给定的文本图像,用人工标注的方法获取文本图像中文本的内容;对训练图像集中的所有文本图像都进行标注,就可以得到训练数据集,记为其中Itri表示训练图像集中的第i张图像,Ltri表示图像Itri中的文本内容,ltri,t表示Ltri中的第t个字符,Ttri表示Ltri中字符个数,Ntr为训练图像个数;
(1.2)定义用于对待识别图像进行识别的级联网络,所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成,根据上述训练数据集,利用反向传导方法训练该级联网络,得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型;
(1.2.1)对训练图像Itr,在图像上取两条平行的线段,线段的端点都在图像的左右边界上,在这两条线段上分别等间距的取K/2个点作为基准点,其中K为设置的基准点个数,这样就可以得到K个初始化的基准点,将这些基准点的坐标保存在基准点坐标矩阵Ctr中,记为Ctr=[ctr1,...,ctrK],其中坐标系的原点为图像的中点,ctrk表示第k个基准点,且ctrk=[xctrk,yctrk]T,xctrk和yctrk分别表示该基准点在训练图像Itri上归一化后的横纵坐标,xctrk∈[-1,1],yctrk∈[-1,1],上标T表示矩阵转置;
(1.2.2)以卷积神经网络作为图像基准点定位网络,该卷积神经网络包含四个卷积层、四个最大池化层、两个全连接层以及一个双曲正切输出层;根据基准点坐标初始化所述基准点定位网络的的权重参数和偏置量,其中权重参数均为0,基准点对应的偏置量为1,其他的偏置量均为0;
(1.2.3)对训练图像Itr,令图像Itr′为Itr经过变换后的图像,且变换后图像的宽度和高度分别为Wf和Hf,均为固定的值,定义变换后的图像的基准点坐标矩阵为Ctr′=[ctr′1,...,ctr′K],其中K为基准点的个数,变换后的图像中的基准点与原训练图像中的基准点是一一对应的,且变换后的图像的基准点等间距的分布在图像Itr′的上下两条边上,其中第ktr个基准点ctr′ktr=[xctr′ktr,yctr′ktr]T,ctr′k对应原始训练图像Itr中的第ktr个基准点ctrktr,xctr′ktr和yctr′ktr分别表示该基准点在图像Itr′上归一化后的横纵坐标,xctr′ktr∈[-1,1],yctr′ktr∈[-1,1];
(1.2.4)计算薄板样条函数转换矩阵Tps,记为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610072466.1/2.html,转载请声明来源钻瓜专利网。