[发明专利]一种矩形文字特征碎纸片的半自动拼接复原方法有效
申请号: | 201310697323.6 | 申请日: | 2013-12-18 |
公开(公告)号: | CN103679678B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 贲晛烨;梁泽滨;张鹏;刘天娇;孙孟磊;徐秀珊 | 申请(专利权)人: | 山东大学 |
主分类号: | G06T5/50 | 分类号: | G06T5/50 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 吕利敏 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 矩形 文字 特征 纸片 半自动 拼接 复原 方法 | ||
1.一种矩形文字特征碎纸片的拼接复原方法,其特征在于,该复原方法包括针对中英文纵切纸条碎片、中英文横纵切纸条碎片以及英文横纵切双面纸条碎片的复原方法:
1.中英文纵切纸条碎片
(1)使用扫描仪读入文字碎片数字图像,并把图像转化成灰度图像;
(2)将所述图像再分别进行二值化处理、碎片左边缘检测、边缘匹配和显示拼接复原图像:
(a)对图像进行二值化处理:将纸条碎片进行顺序编号,如00,01,02,……,计算机按照编号将碎片图像进行读入,并进行二值化处理并取反,提取每个碎片的左右边缘矢量;
(b)对步骤(a)中碎片依次进行左边缘检测,以确定所述碎片是否为原始文档的左边缘:判断编号的碎片左边缘是否为空白,若为空白则编号的碎片为文档左边缘;
(c)按照边缘匹配准则进行碎片排序:通过步骤(b)确定原始文档左边缘后,确定文档左边缘所对应的碎片为第1碎片,显示第1碎片及其编号;将所述第1碎片的右边缘矢量,按照编号顺序依次与其它碎片的左边缘矢量进行对比匹配,直到找与第1碎片右边缘匹配的第2碎片,在所述第1碎片的右侧增加显示第2碎片及其编号;
(d)按照步骤(c)的边缘匹配准则对其它碎片按照编号顺序依次由左到右进行对比匹配,直到匹配到最后一个碎片,将匹配完毕的碎片依次按照匹配次序由左到右进行显示,并显示各自的编号,形成最终的恢复原始文档;
(e)保存步骤(c)和步骤(d)中所述匹配碎片的排序及对应的编号排序。
优选的,人眼查看所述步骤(d)中最终的恢复原始文档,核定恢复结果;
2.中英文横纵切纸条碎片
①中文横纵碎片
首先,读入文档横纵切的纸条碎片数字图像信息,并将碎片图像转化为灰度图像,且进行二值化、取反处理,然后分别提取每个碎片的左右边缘矢量、上下边缘矢量;
其次,将检测碎片高度;且在组内检测左边缘碎片,进行组内匹配;最后进行横向纸条上下匹配,进行恢复:
i)对碎片上文字的高度进行检测:由于中文是方块字,字形相对规则,所以对所有碎片逐行检测字符出现的位置,根据碎片上边沿为字或者空白,以及第一行字符出现的最高像素点位置进行分类成组,并将每组内的碎片进行编号;分类时,为了避免特殊情况的发生,进行精确分组,加入人工干预指导,将文字高度按照大小进行排列,相邻数值接近的高度对应的碎片归为一组;
ii)组内匹配:将步骤(i)中分类完毕的碎片进行组内匹配:
(a)对所有碎片依次进行左边缘检测,以确定所述碎片是否为原始文档的左边缘碎片:判断碎片左边缘是否为空白,若为空白则碎片为文档左边缘;
(b)按照边缘匹配准则进行碎片排序:若检测出的左边缘碎片存在于步骤i)过程中分好的组内,则以该左边缘碎片为起点对相应的分组的碎片进行向右边缘匹配;通过步骤(a)确定原始文档左边缘后,确定文档左边缘所对应的碎片为第1碎片,显示第1碎片及其编号;将所述第1碎片的右边缘矢量,按照编号顺序依次与其它碎片的左边缘矢量进行对比匹配,直到找与第1碎片右边缘匹配的第2碎片,在所述第1碎片的右侧增加显示第2碎片及其编号;
若左边缘碎片不属于任何一个分组,则先搁置该碎片,直到匹配完其它分组后,按照原始文档的左边缘碎片的上下边缘矢量,再进行匹配入文档;
(c)按照步骤(b)的边缘匹配准则对其它碎片按照编号顺序依次由左到右进行对比匹配,直到匹配到最后一个碎片,将匹配完毕的碎片依次按照匹配次序由左到右进行显示,并显示各自的编号,形成恢复原始横条文档;
(d)保存步骤(b)和步骤(c)中所述匹配碎片的排序及对应的编号排序。
优选的,人眼查看所述步骤(c)中恢复原始横条文档,核定恢复结果;
iii)行内调整:匹配时选择边缘差异最小的碎片,如果组内没有相连的下一个碎片,则会匹配到错误的碎片,进而会影响到之后的排序,因此通过人工干预的方式进行行内调整,最后得到横向纸条;
iv)横向纸条上下匹配:
提取横向纸条的上下边缘矢量进行对比和匹配,
(a)对所有横向纸条依次进行上边缘检测和下边缘检测,以确定所述横向纸条是否为原始文档的上边缘碎片或下边缘碎片:判断横向纸条的上边缘或下边缘是否为空白,若为空白则横向纸条为文档上边缘碎片或下边缘碎片;
(b)按照边缘匹配准则进行横向纸条的纵向排序:通过步骤(a)确定原始文档上边缘后,确定文档上边缘所对应的碎片为第1横向纸条,显示第1横向纸条及其编号;将所述第1横向纸条的下边缘矢量,按照编号顺序依次与其它碎片的上边缘矢量进行对比匹配,直到找与第1横向纸条右边缘匹配的第2横向纸条,在所述第1横向纸条的下侧增加显示第2横向纸条及其编号;
(c)按照步骤(b)的边缘匹配准则对其它横向纸条按照编号顺序依次由上到下进行对比匹配,直到匹配到最后一个横向纸条,将匹配完毕的横向纸条依次按照匹配次序由上到下进行显示,并显示各自的编号,形成恢复原始文档;
(d)保存步骤(b)和步骤(c)中所述匹配横向纸条的排序及对应的编号排序;
优选的,人眼查看所述步骤iv)中第(c)步中恢复原始横条文档,核定恢复结果;
②英文横纵碎片
首先,读入纸条碎片数字图像,并转化为灰度图像,并进行二值化、取反处理,凸显文字;然后分别提取每个碎片的左右边缘矢量、上下边缘矢量;
其次,将检测碎片高度;且在组内检测左边缘碎片,进行组内匹配;最后进行横向纸条上下匹配,进行恢复:
然后,确定碎片的二三线位置,按照文字高度分组;组内匹配、最后进行横向纸条上下匹配,进行恢复:
i)碎片预处理:要想确定每行字母位置,最大程度抵消因字母占位不同带来的高度匹配误差,先要对字母进行形态学处理,将占据上格的字母部分尽量消除,以便确定第二、三线的位置。
ii)确定碎片中第二三线位置,按照高度分组:首先在处理后的碎片中寻找只占中格的一行,然后再往上计算上一行的二三线位置,直到超出上边缘。取每一个碎片出现的第一个二线高度作为该碎片的特征高度,以此为依据进行分组,对所有碎片逐行检测字符出现的位置,根据碎片上边沿为字或者空白,以及第一行字符二线高度出现的最高像素点在碎片中的位置进行分类成组,并将每组内的碎片进行编号;分类时,为了避免特殊情况的发生,进行精确分组,加入人工干预指导,将文字高度按照大小进行排列,相邻数值接近的高度对应的碎片归为一组。
iii)组内匹配:将步骤(ii)中分类完毕的碎片进行组内匹配:
(a)对所有碎片依次进行左边缘检测,以确定所述碎片是否为原始文档的左边缘碎片:判断碎片左边缘是否为空白,若为空白则碎片为文档左边缘;
(b)按照边缘匹配准则进行碎片排序:若检测出的左边缘碎片存在于步骤i)过程中分好的组内,则以该左边缘碎片为起点对相应的分组的碎片进行向右边缘匹配;通过步骤(a)确定原始文档左边缘后,确定文档左边缘所对应的碎片为第1碎片,显示第1碎片及其编号;将所述第1碎片的右边缘矢量,按照编号顺序依次与其它碎片的左边缘矢量进行对比匹配,直到找与第1碎片右边缘匹配的第2碎片,在所述第1碎片的右侧增加显示第2碎片及其编号;
若左边缘碎片不属于任何一个分组,则先搁置该碎片,直到匹配完其它分组后,按照原始文档的左边缘碎片的上下边缘矢量,再进行匹配入文档;
(c)按照步骤(b)的边缘匹配准则对其它碎片按照编号顺序依次由左到右进行对比匹配,直到匹配到最后一个碎片,将匹配完毕的碎片依次按照匹配次序由左到右进行显示,并显示各自的编号,形成恢复原始横条文档;
(d)保存步骤(b)和步骤(c)中所述匹配碎片的排序及对应的编号排序;
优选的,人眼查看所述步骤iii)第(c)步中恢复原始横条文档,核定恢复结果;
iv)行内调整:匹配时选择边缘差异最小的碎片,如果组内没有相连的下一个碎片,则会匹配到错误的碎片,进而会影响到之后的排序,因此通过人工干预的方式进行行内调整,最后得到横向纸条;
v)横向纸条上下匹配:
提取横向纸条的上下边缘矢量进行对比和匹配,
(a)对所有横向纸条依次进行上边缘检测和下边缘检测,以确定所述横向纸条是否为原始文档的上边缘碎片或下边缘碎片:判断横向纸条的上边缘或下边缘是否为空白,若为空白则横向纸条为文档上边缘碎片或下边缘碎片;
(b)按照边缘匹配准则进行横向纸条的纵向排序:通过步骤(a)确定原始文档上边缘后,确定文档上边缘所对应的碎片为第1横向纸条,显示第1横向纸条及其编号;将所述第1横向纸条的下边缘矢量,按照编号顺序依次与其它碎片的上边缘矢量进行对比匹配,直到找与第1横向纸条右边缘匹配的第2横向纸条,在所述第1横向纸条的下侧增加显示第2横向纸条及其编号;
(c)按照步骤(b)的边缘匹配准则对其它横向纸条按照编号顺序依次由上到下进行对比匹配,直到匹配到最后一个横向纸条,将匹配完毕的横向纸条依次按照匹配次序由上到下进行显示,并显示各自的编号,形成恢复原始文档;
(d)保存步骤(b)和步骤(c)中所述匹配横向纸条的排序及对应的编号排序;
优选的,人眼查看所述步骤iv)中第(c)步中恢复原始横条文档,核定恢复结果;
3.双面英文横纵切纸条碎片
首先,将纸条碎片得到的正反面数字图像信息读入,并将图像转化为灰度图像,将灰度图像进行二值化和取反操作,凸显文字;
其次,进行高度检测,人工辅助分组;组内正反面边缘检测,组内匹配并人工检查;横向纸条上下匹配,进行拼接复原:
i)碎片预处理:为了获得每行字母的位置,最大程度抵消字母占位不同带来的高度匹配误差,通过对碎片中字母进行形态学处理尽量消除占据上格的字母部分,为确定第二、三线位置做准备;
ii)确定碎片中第二三线位置,按照高度进行分组:首先在处理后的碎片中寻找只占中格的一行,然后再往上计算上一行的二三线位置,直到超出上边缘。取每一个碎片出现的第一个二线高度定义为该碎片的特征高度;然后对所有碎片逐行检测字符出现的位置,根据字符上边沿为字或者空白,以及第一行字符二线高度出现的最高像素点在碎片中的位置进行分组,并对每组内碎片进行编号;分类时,为了避免特殊情况的发生,加入人工干预指导,按照文字高度大小进行排列,将高度接近的碎片归为一组;
iii)组内匹配:将步骤(ii)中分类完毕的碎片进行组内匹配:
(a)对每组内碎片进行左边缘检测,确定每组内的左边缘为原始文档每行的左边缘:判断每组内碎片是否为空白,若为空白则是碎片文档的左边缘;
(b)按照边缘匹配准则向右匹配:若检测出的左边缘碎片存在于步骤(ii)的分好的组内,则以该碎片左边缘碎片为起点对该组内相应的碎片进行向右匹配;将所述第1横向纸条的下边缘矢量,按照编号顺序依次与其它碎片的上边缘矢量进行对比匹配,直到找与第1横向纸条右边缘匹配的第2横向纸条,在所述第1横向纸条的下侧增加显示第2横向纸条及其编号;
(c)此时需要人工干预,观察匹配结果,将多余的碎片拿到无法分组的碎片群中,缺少的碎片在无法分组的碎片群中寻找。由于高度分布比较集中,所以分组难度不大,只需考虑个别不连续的碎片。无法分组的碎片中也有两个左边缘碎片,分别进行匹配,从而一个分组中的碎片分别分出了两行;
(d)按照步骤(b)的边缘匹配准则对其它碎片按照编号顺序依次由左到右进行对比匹配,直到匹配到最后一个碎片,将匹配完毕的碎片依次按照匹配次序由左到右进行显示,并显示各自的编号,形成恢复原始横条文档;
(e)保存步骤(b)和步骤(c)中所述匹配碎片的排序及对应的编号排序。
优选的,人眼查看所述步骤iii)中第(c)步中恢复原始横条文档,核定恢复结果;
iv)行内调整:匹配时选择边缘差异最小的碎片,如果组内没有相连的下一个碎片,则会匹配到错误的碎片,进而会影响到之后的排序,因此通过人工干预的方式进行行内调整,最后得到横向纸条;
v)横向纸条上下匹配:提取横向纸条的上下边缘矢量进行对比和匹配,
(a)对所有横向纸条依次进行上边缘检测和下边缘检测,以确定所述横向纸条是否为原始文档的上边缘碎片或下边缘碎片:判断横向纸条的上边缘或下边缘是否为空白,若为空白则横向纸条为文档上边缘碎片或下边缘碎片;
(b)按照边缘匹配准则进行横向纸条的纵向排序:通过步骤(a)确定原始文档上边缘后,确定文档上边缘所对应的碎片为第1横向纸条,显示第1横向纸条及其编号;将所述第1横向纸条的下边缘矢量,按照编号顺序依次与其它碎片的上边缘矢量进行对比匹配,直到找与第1横向纸条右边缘匹配的第2横向纸条,在所述第1横向纸条的下侧增加显示第2横向纸条及其编号;
(c)按照步骤(b)的边缘匹配准则对其它横向纸条按照编号顺序依次由上到下进行对比匹配,直到匹配到最后一个横向纸条,将匹配完毕的横向纸条依次按照匹配次序由上到下进行显示,并显示各自的编号,形成恢复原始文档;
(d)保存步骤(b)和步骤(c)中所述匹配横向纸条的排序及对应的编号排序;
优选的,人眼查看所述步骤v)中第(c)步中恢复原始横条文档,核定恢复结果;
vi)由步骤(v)可以找到属于同一面的所有的行,匹配完文档的一面,即可复原整个文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310697323.6/1.html,转载请声明来源钻瓜专利网。