[发明专利]一种面向碑文的汉字提取方法有效
申请号: | 201510441259.4 | 申请日: | 2015-07-24 |
公开(公告)号: | CN104992176B | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 齐越;王晨;王晓卿;邹玲;韩尹波;罗江 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/46 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 杨学明,顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 碑文 汉字 提取 方法 | ||
1.一种面向碑文的汉字提取方法,其特征在于包括以下步骤:
步骤(1)、采用扩展边界的方法构建碑文图像的Area Voronoi图,每个Voronoi区域表示一个连通域,每个连通域根据其中是否包含汉字可分为汉字连通域和非汉字连通域;由于汉字的离散性,在构建Area Voronoi图的过程中会造成单个汉字笔画之间的分离,从而分属于不同的连通域中,因此只包含部分汉字,称为汉字的组件;
步骤(2)、根据连通域组件宽度标准差之间的差异性,去除非汉字连通域,并合并所有的汉字连通域,从而可定位出碑文图像中的整个汉字区域;
步骤(3)、对汉字区域图像进行总体变分(TV,Total Variation)平滑操作去除一定的噪声点,之后进行二值化,使得图像只包含黑白两种像素;计算二值图像中的列投影直方图,根据碑文书法列分布的间隔性规律,分割出单列的汉字区域;
步骤(4)、提取汉字图像列中的连通域,该连通域包含单个完整的汉字,或为不同汉字的不同部分的组合,因此需要对连通域进行重组;分析汉字结构特点,将连通域外接矩形之间的关系总结为三种情况:上下关系、左右关系和重叠关系,根据这三种关系进行提取出汉字。
2.如权利要求1所述的面向碑文的汉字提取方法,其特征在于:所述步骤(1)中构建Area Voronoi图的步骤如下:
步骤(11)、首先对图像进行连通域划分,每个连通域对应一个闭合的多边形,并对各个连通域以及未被划分成连通域的背景点进行标记;
步骤(12)、采用Freeman编码链表示每个连通域的轮廓,并对轮廓上以及轮廓内部的像素点进行初始化,初始值为所对应轮廓的标记;
步骤(13)、采用扩展Freeman编码链的方式扩展连通域的边界;同时对扩展轮廓上的每一个点进行判断,如果该点同时也位于另外一个连通域轮廓上,那么该像素点可视为一个Voronoi边界点,设置其值为EDGE_POINT;否则如果该点只是一个背景点,则设置其值为相应的轮廓的标记;
步骤(14)、迭代的扩展、判断、标记每个连通域,当平面上所有的像素点都不再包含背景像素时,即表示所有的像素点归属某一个Voronoi区域,或为区域的边界点,由此完成了图像的Area Voronoi图的构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510441259.4/1.html,转载请声明来源钻瓜专利网。