[发明专利]基于英文文字特征的碎纸机破碎文档复原方法有效
申请号: | 201410185991.5 | 申请日: | 2014-05-05 |
公开(公告)号: | CN103996180A | 公开(公告)日: | 2014-08-20 |
发明(设计)人: | 冯钧;陈焕霖;杨艳林;陈丽君;唐志贤;许潇;朱忠华;盛震宇 | 申请(专利权)人: | 河海大学 |
主分类号: | G06T5/50 | 分类号: | G06T5/50;G06T3/40 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于英文文字特征的碎纸机破碎文档复原方法,属于图像处理的技术领域。文档复原方法包括图像数字化、图像预处理、图像聚类和图像拼接四个步骤。图像预处理是指运用matlab软件导入每张碎纸片,生成对应于每张碎纸片的灰度矩阵以及对灰度矩阵进行二值化处理,并生成二值序列;图像聚类步骤是指根据英文文字特征,对二值序列进行渲染,并根据渲染结果对原始图像进行聚类;图像拼接步骤是指根据聚类结果,基于最小累积边缘距离原则,对原始图像进行纵向拼接,再对纵向拼接之后的结果进行横向拼接。本发明解决了被碎纸机破碎后的英文文档的复原问题,填补了现有技术的空白,同时,通过聚类,使拼接效率得以大大提高。 | ||
搜索关键词: | 基于 英文 文字 特征 碎纸机 破碎 文档 复原 方法 | ||
【主权项】:
基于英文文字特征的碎纸机破碎文档复原方法,其特征在于:扫描破碎文档图像,对每一幅图像按照步骤1至步骤3作如下处理:步骤1,建立灰度矩阵,二值化灰度矩阵后得到二值矩阵,然后分别求取二值矩阵每一行元素之和,垂直方向排列二值矩阵各行元素之和得到二值序列;步骤2,由英文字母排版空间的上部宽度Wu、中部宽度Wm和下部宽度Wd,确立英文字母占据四线三格的空间位置,所述空间位置包括上中部、中部、中下部、上中下部:步骤3,在二值序列中查找渲染起始点,渲染二值序列后进行聚类处理:步骤3‑1,由英文字母占据四线三格的空间位置,确定第一轮渲染的起始点:当英文字母处于四线三格的上中部时,从中部的最下点开始,通过该点位置回退Wm+Wu得到第一轮渲染的起始点,当英文字母处于四线三格的中部时,从中部的最上点开始,通过该点位置回退Wu得到第一轮渲染的起始点,当英文字母处于四线三格的中下部时,从中部的最上点开始,通过该点位置回退Wu得到第一轮渲染的起始点,当英文字母处于四线三格的上中下部时,从下部的最下点开始,通过该点位置回退Wu+Wm+Wd得到第一轮渲染的起始点;步骤3‑2,从第一轮渲染的起始点开始渲染二值序列得到新的二值序列,具体包括步骤a和步骤b:步骤a,从第一轮渲染的起始点开始分别往上、往下扫描,当扫描到遇0后的第一个1时,记录1所在的行号fk,并以fk为基准,处于fk上方的并与fk的距离为Wb的字体空间内都用1覆盖;处于的fk下方的并与fk的距离为Wu+Wm+Wd+Wb的字体空间内同样也全部用1覆盖,Wb为字母与字母纵向间距,步骤b,第一轮渲染完成之后,取扫描方向上第一轮渲染起始点的下一个点作为新的渲染起始点,重复步骤a,遍历二值序列的所有点作为渲染起始点生成新的二值序列;步骤4,对每一幅图像的新二值序列进行聚类处理;步骤5,分别在每一类中,基于最小累积边缘距离原则找到累积边缘距离最小的两个二值矩阵,对这两个二值矩阵对应的破碎文档进行横向匹配拼接,直到该类中所有的图像都拼接到一起为止,再根据最小累积边缘距离对已经完成横向匹配的各破碎文档进行纵向匹配拼接。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410185991.5/,转载请声明来源钻瓜专利网。