[发明专利]一种基于判别字典学习与稀疏表示的场景图片文字检测的方法有效
申请号: | 201610505754.1 | 申请日: | 2016-07-01 |
公开(公告)号: | CN106203414B | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 李华锋;刘舒萍;汤宏颖;余正涛 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于判别字典学习与稀疏表示的场景图片文字检测的方法,属于数字图像处理技术领域。首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;本发明提出的判别字典学习与稀疏表示的场景图像文字检测的方法可以大幅度提高文字识别的准确度。 | ||
搜索关键词: | 一种 基于 判别 字典 学习 稀疏 表示 场景 图片 文字 检测 方法 | ||
【主权项】:
1.一种基于判别字典学习与稀疏表示的场景图像文字检测的方法,其特征在于:首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;具体步骤为:Step1、首先构建文字和背景的训练样本;Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只含有文字没有背景纹理,背景图像不含有文字;Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据,每个窗口n×n采集到数据作为一个列向量n2×1,n为滑动窗口的大小,所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵;Step2、利用训练样本学习字典;Step2.1、提出字典学习的目标函数:
式中,Y、D、X分别为采集的样本数据、待学习的字典和样本数据对应的稀疏表示系数,f(DX)=tr(Sw(DX))‑tr(SB(DX))+η||DX||2F是改进的Fisher字典学习判别项,di为D中的第i个原子;Step2.2、目标函数的求解,需要对字典D和稀疏系数X进行迭代更新,X是以类(m=1,...,N)为单位更新的,D是以原子(i=1,...,k)为单位更新的,i和j是类m中的不同原子,迭代更新一次,i加1一次,加到k之后,m加1;直到所有类,所有原子更新完;Step2.2.1、固定D,求解X;用迭代更新的算法求解目标函数,初始化字典D,更新得到的稀疏表示系数
X为m类的P次更新;
其中σ,τ>0,为设定的调节值,
是Q(Xm)的梯度值,
Sτ/σ是软阈值算子,当|xn|≤τ/σ时,[Sτ/σ(x)]n=0;否则,[Sτ/σ(x)]n=xn‑sign(xn)τ/σ,更新次数P达到m类中的原子个数时,m加1,直到所有类都更新完;Step2.2.2、固定X,求解D;用迭代更新的算法求解目标函数,固定稀疏表示系数X,字典D的求解是以原子为单位更新的,也就是固定
更新
即更新m类的第i个原子,得:
式中,
又有![]()
改进的Fisher判别项为
m=1,2,...,N,i=1,2,...,K,
表示m类的第i列,
表示m类第i行,Mm是
的均值向量,M是DX的均值向量;每迭代一次,i加1一次,直到达到m类中的原子个数时,m加1,直到所有类都更新完;Step3、待检测图像预处理;对待检测图像x进行滤波处理,保留前景文字的特征,弱化背景的纹理特征,用自适应滤波器进行预处理操作;Step4、待检测图像文字稀疏表示系数的求解;待检测图像文字区域的稀疏表示系数的求解是由Step2中求解出的字典D和待检测图像的数据Y作为已知条件求解的,如下式所示:
式中,Y,D分别为待检测图像的数据和Step2中求解的字典,X为要求解的待检测图像对应的稀疏表示系数,由于训练样本分为文字训练样本W和非文字训练样本B,所以学习到的字典为文字字典D(W)和背景字典D(B),待检测图像的稀疏表示系数也分别为文字稀疏表示系数X(W)和背景稀疏表示系数X(B);要求解的待检测图像中的文字稀疏表示系数表示为X(W);Step5、重建待检测图像中的文字;由Step4中的待检测图像中文字的稀疏表示系数和Step2中学习到的字典,待检测图像中文字的重建可以通过下式重建:Y(W)=DX(W)这时得到的数据是一个矩阵,设定重建图像的大小与待检图像的大小严格一样,用matlab函数把矩阵数据显示为图像形式,图像中的没有重构的背景部分像素值为0;Step6、待检测图像中候选的文字区域;对Step5中重建的文字图像用启发式规则如形态学处理、双阈值限制,面积宽高比等方法去除错误重建的噪声或背景部分,找到重建的文字图像的连通区域的重心点,然后把确定出来的重心点连接在一起,最后用矩形框包围以重心点为中心,以给定阈值为边长的矩形框,这些矩形框所包围的区域为候选的文字区域;Step7、确定待检测图像的文字区域;对Step6中候选的文字区域用水平方向是否一致的方法和矩形框面积阈值限定的方法进行判断矩形框之间是否水平合并,对于不满足合并条件的矩形框直接舍弃得到一个大的矩形框,最后留下来的矩形框为检测到的文本区域。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610505754.1/,转载请声明来源钻瓜专利网。