[发明专利]一种基于空间变换的自然场景下文本识别方法有效

专利信息
申请号: 201610072466.1 申请日: 2016-02-02
公开(公告)号: CN105740909B 公开(公告)日: 2017-06-13
发明(设计)人: 白翔;石葆光;张新浩 申请(专利权)人: 华中科技大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 华中科技大学专利中心42201 代理人: 曹葆青
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于空间变换的自然场景下文本识别方法,首先对训练图像集中的文本图像,获取图像的文本内容,并训练基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络等网络模型;然后利用训练得到的网络模型对待识别图像集中图像进行空间变换,得到变换后的待识别图像;然后计算变换后的待识别图像的特征向量以及预测概率序列,最终获取图像识别的结果。本发明方法文本识别准确率高,且能够克服文本排列不规则等不利因素的影响。
搜索关键词: 一种 基于 空间 变换 自然 场景 文本 识别 方法
【主权项】:
一种基于空间变换的自然场景下文本识别方法,其特征在于,所述方法包括下述步骤:(1)训练得到文本识别的参数,所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型,包括如下子步骤:(1.1)标记训练图像集中所有文本图像的文本内容,得到训练数据集;(1.2)定义用于对待识别图像进行识别的级联网络,所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成,根据上述训练数据集,利用反向传导方法训练该级联网络,得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型;(2)利用基准点定位网络对待识别图像做空间变换,包括如下子步骤:(2.1)利用基准点定位网络模型计算待识别图像的基准点位置;(2.2)根据所述待识别图像的基准点位置,利用薄板样条函数转换矩阵获取原待识别图像和变换后待识别图像的坐标对应关系;(2.3)根据上述原待识别图像和变换后待识别图像的坐标对应关系获取变换后的待识别图像;(3)对变换后的待识别图像进行识别:(3.1)利用图像编码器网络模型获取变换后的待识别图像的特征向量;(3.2)根据上述待识别图像的特征向量,利用特征解码器网络模型,获取待识别图像的预测概率序列;(3.3)利用上述得到的预测概率序列获取待识别图像最终的识别结果;所述步骤(1.2)具体为:(1.2.1)在训练图像Itr上取两条平行的线段,线段的端点都在训练图像的左右边界上,在这两条线段上分别等间距的取K/2个点作为基准点,其中K为设置的基准点个数,得到K个初始化的基准点,将这些基准点的坐标保存在基准点坐标矩阵Ctr中,记为其中坐标系的原点为图像的中点,ctrk表示第k个基准点,且ctrk=[xctrk,yctrk]T,xctrk和yctrk分别表示该基准点在训练图像Itri上归一化后的横坐标和纵坐标,xctrk∈[‑1,1],yctrk∈[‑1,1],上标T表示矩阵转置,Itri表示训练图像集中的第i张图像;(1.2.2)以卷积神经网络作为图像基准点定位网络,该卷积神经网络包含四个卷积层、四个最大池化层、两个全连接层以及一个双曲正切输出层;根据基准点坐标初始化所述基准点定位网络的的权重参数和偏置量,其中权重参数均为0,基准点对应的偏置量为1,其他的偏置量均为0;(1.2.3)对训练图像Itr,记图像Itr′为Itr经过变换后的图像,且变换后图像的宽度和高度分别为Wf和Hf,定义变换后的图像的基准点坐标矩阵为Ctr′=[ctr1′,...,ctr′K],其中K为基准点的个数,变换后的图像中的基准点与原训练图像中的基准点是一一对应的,且变换后的图像的基准点等间距的分布在图像Itr′的上下两条边上,其中第ktr个基准点ctr′ktr=[xctr′ktr,yctr′ktr]T,ctr′k对应原始训练图像Itr中的第ktr个基准点ctrktr,xctr′ktr和yctr′ktr分别表示该基准点在图像Itr′上归一化后的横纵坐标,xctr′ktr∈[‑1,1],yctr′ktr∈[‑1,1];(1.2.4)计算薄板样条函数转换矩阵Tps,记为:其中Os为1×K的矩阵,且Os中所有元素的值均为1,Ctr′为变换后的图像的基准点坐标矩阵,Zs为3×3的矩阵,且Zs中所有元素的值均为0,R为K×K的矩阵,且其第row行、第col列的元素值rrow,col为训练图像Itr的第row个基准点Ctrrow和变换后的图像Itr′的第col个基准点Ctr′col之间的欧式距离,上标T表示矩阵转置,K为基准点的个数,则利用训练图像的基准点坐标矩阵Ctr和薄板样条函数转换矩阵Tps计算转换参数矩阵A=[a1,a2,a3]T,B=[b1,b2,b3]T,F=[f1,...,fK]T,G=[g1,...,gK]T,其中矩阵A、B、F、G中的元素为转换参数,转换参数矩阵计算方程为:CtrT=TpsPa解该方程即可得到转换参数矩阵Pa,对变换后的图像Itr′上的一个点ptr′=[xprt′,yprt′]T,计算其对应于原始训练图像的点其中xptr′和yptr′分别表示点ptr′的在Itr′的横纵坐标,xptr和yptr分别表示点ptr在Itr的横纵坐标,计算公式为:ptr=PaTptr″,ptr″=[1,xptr′,yptr′,rtr1′,...,rtr′K]T,其中dtrktr表示点ptr′与Itr′的第ktr个基准点ctr′ktr之间的欧式距离,对图像Itr′中的每个点都执行上述运算,得到Itr′上每个点与图像Itr中点的对应关系;(1.2.5)对图像Itr′中的每个点ptr′,通过步骤(1.2.4)计算出其 在原始图像Itr中对应的点ptr,利用双线性插值的方法通过点ptr周围的像素点的值计算出点ptr′的像素值,得到原始训练图像Itr经过变换后的图像Itr′;(1.2.6)以步骤(1.2.5)中得到的经过变换的图像作为输入,经过由卷积层构成的图像预处理网络,经过图像预处理可以得到D个Wf×Hf的特征图,其中D为常数,Wf和Hf分别表示预设的变换后图像的宽度和高度;对特征图的每一列,将其每个像素在D个特征图上对应的值拼接起来,组成一个D×Hf的特征向量,一共得到Wf个D×Hf的特征向量;然后以双向长短程记忆网络作为图像编码器网络,这些特征向量通过图像编码器网络进行计算得到训练图像的特征序列PItr={Xtr1,...,XtrWf},其中Xtrwtr表示图像Itr′第wtr列的特征向量;(1.2.7)以门限递归单元网络构建特征解码器网络,特征解码由Td个过程构成,其中Td表示特征解码器网络次数,特征解码的第td步具体为:首先计算权重向量αtd,计算方法如下:etd,wtr=vaT tanh(Wastd‑1+UaXtrwtr)其中,αtd,wtr表示权重向量αtd的第wtr维的值,Wf表示预设的变换后图像的宽度,va、Wa、Ua为训练得到的参数矩阵,std‑1表示解码过程第td‑1步的输出,Xtrwtr表示步骤(1.2.6)中得到的图像Itr′第wtr列的特征向量,αtd是一个Wf维的向量;然后计算步骤(1.2.6)中得到的图像特征序列的上下文关系特征向量,记为:其中αtd,wtr表示权重向量αtd的第wtr维的值,Xtrwtr表示步骤(1.2.6) 中得到的图像表示序列PItr={Xtr1,...,XtrWf}中的第wtr个向量;然后以得到的上下文关系特征向量otd、特征解码过程第td‑1步的输出std‑1以及预测的字符l′td‑1为输入,经过该特征解码过程,得到输出std,然后将std输入到软最大分类器进行分类,得到预测的概率分布ytd;(1.2.8)将步骤(1.2.2)至(1.2.7)中所述的基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络级联在一起,即为文本识别的网络,记为级联网络,利用反向传导的方法对该级联网络进行训练,得到步骤(1.2.2)中的基准点定位网络模型θloc、步骤(1.2.6)中的图像预处理网络模型θconv和图像编码器网络模型θblstm以及步骤(1.2.7)中的特征解码器网络模型θrnn和软最大分类器的模型W,组合在一起即为级联网络的模型,记为θ,该级联网络代价函数为:其中χ为训练数据集,Itri和Ltri分别表示第i个训练图像及其标注的文本内容,Ttri表示文本内容Ltri中字符的个数,ltri,t表示Ltri中的第t个字符,p(ltri,t|Itri,θ)由级联网络最后输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610072466.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top