[发明专利]一种笔画宽度提取方法、装置及一种文字识别方法、系统有效
申请号: | 201210169811.5 | 申请日: | 2012-05-28 |
公开(公告)号: | CN103455816B | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 郑琪;王永攀 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/20 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 笔画 宽度 提取 方法 装置 文字 识别 系统 | ||
1.一种笔画宽度提取方法,其特征在于,包括:
提取笔画的原始连通分量并对应一候选笔画宽度;
对所述原始连通分量进行腐蚀计算,并计算每次腐蚀前的连通分量的轮廓周长,组成周长直方图;
每次腐蚀计算后得到的连通分量对应一候选笔画宽度,对所述周长直方图进行差分计算,得到各候选笔画宽度对应的笔画长度;
将各候选笔画宽度对应的笔画长度组成笔画宽度直方图;
依据所述笔画宽度直方图中的极大值确定所述原始连通分量是否为文字区域,如果是文字区域,则依据极大值确定该文字区域的笔画宽度。
2.根据权利要求1所述的方法,其特征在于,所述对所述周长直方图进行差分计算,得到各候选笔画宽度对应的笔画长度,包括:
将所述周长直方图中第n次腐蚀前的连通分量的轮廓周长减去第n+1次腐蚀前的连通分量的轮廓周长,得到第n个候选笔画宽度对应的笔画长度;其中,n为正整数。
3.根据权利要求1或2所述的方法,其特征在于,所述依据所述笔画宽度直方图中的极大值确定所述原始连通分量是否为文字区域,包括:
寻找笔画宽度直方图中纵坐标表示的笔画长度的极大值,所述笔画宽度直方图中的横坐标表示笔画宽度,所述极大值对应的笔画宽度为峰值宽度;
从所述极大值中选出最大值和次大值;
如果所述最大值和次大值之和占笔画宽度直方图中笔画长度总长度的比例小于第一阈值,或者,最大峰值宽度与最大宽度之差超过第二阈值,则所述原始连通分量为非文字区域;否则,为文字区域。
4.根据权利要求3所述的方法,其特征在于:
如果极大值为一个,或者次大值小于最大值的x%,则舍弃次大值;其中,x为预设值。
5.根据权利要求3所述的方法,其特征在于,所述依据极大值确定该文字区域的笔画宽度,包括:
确定笔画宽度直方图中极大值对应的峰值宽度为m,m为正整数;
计算2m或2m-1并作为该文字区域的笔画宽度;
其中,如果极大值为一个,则该文字区域得到一个笔画宽度;如果极大值有两个,则该文字区域得到两个笔画宽度。
6.根据权利要求1所述的方法,其特征在于,所述依据所述笔画宽度直方图中的极大值确定所述原始连通分量是否为文字区域之前,还包括:
对所述笔画宽度直方图按照以下公式进行平滑操作:
l'n=w1ln-1+w0ln+w1ln+1;
其中,l'n表示平滑后的笔画长度,ln-1、ln、ln+1均表示平滑前的笔画长度,w0和w1表示平滑权值,n表示第n次腐蚀,n-1表示第n-1次腐蚀,n+1表示第n+1次腐蚀。
7.根据权利要求1所述的方法,其特征在于,所述对所述原始连通分量进行腐蚀计算,并计算每次腐蚀前的连通分量的轮廓周长,包括:
选取原始连通分量的轮廓上的点作为初始点集;
从初始点集开始,对原始连通分量中的每个点进行广度遍历,获得每个点距离所述初始点集的最短路径长度,并将所述最短路径长度作为该点的腐蚀次数;
统计具有相同腐蚀次数n的点的个数,作为第n次腐蚀前的连通分量的轮廓周长,n为正整数。
8.根据权利要求7所述的方法,其特征在于:
对原始连通分量中的每个点进行4邻接的广度遍历。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210169811.5/1.html,转载请声明来源钻瓜专利网。