[发明专利]一种面向碑文的汉字提取方法有效
申请号: | 201510441259.4 | 申请日: | 2015-07-24 |
公开(公告)号: | CN104992176B | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 齐越;王晨;王晓卿;邹玲;韩尹波;罗江 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 杨学明,顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种面向碑文的汉字提取方法,主要包括基于Area Voronoi的汉字区域定位方法和基于连通域和包围盒的单字切分方法两个部分。首先针对碑文图像中汉字的分布规律和特点,获取图像中的连通域作为生成元,并利用Freeman编码链来表示每个连通域的轮廓。采用扩展轮廓边界的方法构建出图像的Area Voronoi图。然后根据连通域间的标准差,合并相邻的Area Voronoi区域,从而完成汉字区域的定位操作。在获取汉字区域图像之后,对其进行预处理,去除一定的噪声影响。通过归纳汉字的结构特点,将连通域分析法和包围盒交叠判断法二者相结合,对汉字进行单字提取。本发明针对古代碑文的排列规律,能够较好的完成单个汉字的提取工作,并具有一定的抗噪性。 | ||
搜索关键词: | 一种 面向 碑文 汉字 提取 方法 | ||
【主权项】:
一种面向碑文的汉字提取方法,其特征在于包括以下步骤:步骤(1)、采用扩展边界的方法构建碑文图像的Area Voronoi图,每个Voronoi区域表示一个连通域,每个连通域根据其中是否包含汉字可分为汉字连通域和非汉字连通域;由于汉字的离散性,在构建Area Voronoi图的过程中会造成单个汉字笔画之间的分离,从而分属于不同的连通域中,因此只包含部分汉字,称为汉字的组件;步骤(2)、根据连通域组件宽度标准差之间的差异性,去除非汉字连通域,并合并所有的汉字连通域,从而可定位出碑文图像中的整个汉字区域;步骤(3)、对汉字区域图像进行总体变分(TV,Total Variation)平滑操作去除一定的噪声点,之后进行二值化,使得图像只包含黑白两种像素;计算二值图像中的列投影直方图,根据碑文书法列分布的间隔性规律,分割出单列的汉字区域;步骤(4)、提取汉字图像列中的连通域,该连通域包含单个完整的汉字,或为不同汉字的不同部分的组合,因此需要对连通域进行重组;分析汉字结构特点,将连通域外接矩形之间的关系总结为三种情况:上下关系、左右关系和重叠关系,根据这三种关系进行提取出汉字。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510441259.4/,转载请声明来源钻瓜专利网。