[发明专利]一种基于拆分匹配的汉字笔画自动提取方法在审
申请号: | 201410404614.6 | 申请日: | 2014-08-15 |
公开(公告)号: | CN104182748A | 公开(公告)日: | 2014-12-03 |
发明(设计)人: | 董乐;梁燕;封宁;徐宗懿;张宁 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46 |
代理公司: | 成都华典专利事务所(普通合伙) 51223 | 代理人: | 徐丰 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拆分 匹配 汉字 笔画 自动 提取 方法 | ||
1.一种基于拆分匹配的汉字笔画自动提取方法,包括如下步骤:
步骤一:根据汉字结构,将汉字拆分为多个笔画部件;
步骤二:通过细化算法提取出步骤一得到的笔画部件的骨骼图,并通过计算每个字符像素的相交数找到骨骼图中的交叉点,再计算二值图像中该交叉点二维邻域中点PBOD曲线,将交叉点区域提取出来,其它的则为笔画段;
步骤三:对步骤一得到的笔画部件提取特征,提取到的特征与标准库中的笔画部件的特征进行匹配;
步骤四:根据步骤三的匹配结果对笔画段进行组合,获得汉字的笔画;如果笔画部件匹配成功,则对步骤二所获得的交叉点和笔画段进行优化后,按照标准库中相匹配的笔画部件的笔画段组合方式直接进行组合并输出;如果匹配失败则根据笔画段组合规则对其进行笔画提取,并通过交互,将正确提取笔画的笔画部件及其交叉点和组合方式添加到标准库。
2.根据权利要求1所述的基于拆分匹配的汉字笔画自动提取方法,其特征在于,对步骤一进行更详细地描述为:根据汉字的二值图像中笔画是否连接或交叉把汉字拆分为数个笔画部件C=[s1,s2,…,sk],其中C表示汉字,k表示该汉字拆分成的笔画部件数目,si表示第i个笔画部件;将汉字图像规范化,判断每个值为1的像素点邻域是否都为1,如果不是则认为该点是边界点;相互连通的边界点标注出一个笔画部件。
3.根据权利要求1所述的基于拆分匹配的汉字笔画自动提取方法,其特征在于,对步骤二进行更详细地描述为:提取步骤一所获得的笔画部件的骨架图;对每个笔画部件所对应的骨架图计算每个像素的相交数Nc(p):
其中xi(i=1,…,9)是像素点p的邻接点,且x1=x9;若Nc(p)>2,则p为交叉点;对于没有交叉点的笔画部件直接输出笔画,对于有交叉点的笔画部件在找到骨架图中的交叉点后以该点为中心,计算二值图中p的二维邻域中的点PBOD曲线,将交叉点区域提取出来。
4.根据权利要求1所述的基于拆分匹配的汉字笔画自动提取方法,其特征在于,对步骤二进行更详细地描述为:对步骤三进行更详细地描述:计算步骤一得到的笔画部件的轮廓,把轮廓点作为笔画部件的形状特征,对轮廓点进行采样,计算每个采用轮廓点与其他采样轮廓点的距离和方向并投影到极坐标系,进而计算出极坐标系下的投影直方图;
笔画部件与标准字库中的笔画部件进行匹配,每个笔画部件被表示为对应的投影直方图,通过计算两个投影直方图间的距离,判断两个笔画结构是否匹配;采用欧式距离来度量投影直方图间的距离,当这个距离小于阀值时,两个笔画结构匹配成功。
5.根据权利要求1所述的基于拆分匹配的汉字笔画自动提取方法,其特征在于,对步骤二进行更详细地描述为:对步骤三进行更详细地描述:根据步骤三的匹配结果对笔画段进行组合,提取汉字的笔画;如果笔画部件si与标准库中的某个笔画部件sj匹配成功,则采用Kuhn-Munkras算法将笔画部件的交叉点与匹配笔画部件的交叉点进行匹配,笔画部件si有n交叉点表示为
如果笔画部件si匹配失败,标准库中没有和其匹配的笔画部件,则将交叉区域和该交叉区域的任意两个笔画段进行组合,计算交叉点的PBOD曲线,看PBOD曲线中是否只包含两个波峰,且两个波峰相距是否接近180度,如果是采用这种组合方式提取笔画,输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;,未经电子科技大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410404614.6/1.html,转载请声明来源钻瓜专利网。