[发明专利]一种碎片复原方法有效
申请号: | 201910467300.3 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110246098B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 郑蕾;樊锁海 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06K9/32;G06K9/34 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 刘巧霞 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 碎片 复原 方法 | ||
本发明公开了一种碎片复原方法,包括步骤:建立碎片的电子图像,并转化为二值化电子图像;提取碎片字符,在一次提取字符行的基础上进一步提取字符列,再二次提取字符行,提取到所需的单个字符;建立字符数据库,数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵;分行聚类,将属于同一横行的碎片聚为同一类;行内拼接,将同一类碎片拼接;拼接不同行的碎片。本发明可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符,在保证准确率的前提下自动复原碎纸片。
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于字符提取技术和边缘字符识别技术的碎片复原方法。
背景技术
破碎纸片的修复技术常运用在司法取证、历史文献修复以及军事情报的获取等领域上,但面对数量巨大的碎片,人工修复方式效率显得低下,需要开发复原效率高的自动拼接技术,以提高需求方的工作效率,最大化地从碎纸片中获取到准确度高的信息。
有许多的研究人员研究了纵横切碎片文本自动重建问题,Schauer等人[1]定义了三种类型的碎纸片目,分别是①具有不规则边缘的手撕型碎片,②被碎纸机切碎的条型碎片,③被碎纸机粉碎的横纵切的碎片。特别是第③种碎纸片,由于光滑的边缘、很少的信息、较难去除的噪声,是难以还原的。Prandstetter证明纵横切文本文档的重构是一个NP问题[Schauer C,Prandtstetter M,Günther R.Raidl.A Memetic Algorithm forReconstructing Cross-Cut Shredded Text Documents[C]//International Conferenceon Hybrid Metaheuristics.Springer-Verlag,2010]。Hedong Xu等学者[Xu H,Zheng J,Zhuang Z,et al.A solution to reconstruct cross-cut shredded text documentsbased on character recognition and genetic algorithm[C]//Abstract and AppliedAnalysis.Hindawi,2014,2014.]提出了一个基于字符识别和遗传算法的方法去重构纵横切文本碎片,可以有效地重构文本文档。Junhua Chen等学者[Chen J,Ke D,Wang Z,etal.A high splicing accuracy solution to reconstruction of cross-cut shreddedtext document problem[J].Multimedia Tools and Applications,2018,77(15):19281-19300]基于Hedong Xu等学者提出的方法,引入了组合策略和分而治之的策略来提高准确率。
然而对纵横切文本碎片的扫描图像进行重构中还存在很多的问题,首要的问题就是前人的研究大部分是基于电子的纵横切文本碎片进行的[Chen J,Tian M,Qi X,et al.ASolution to Reconstruct Cross-Cut Shredded Text Documents Based onConstrained Seed K-means Algorithm and Ant Colony Algorithm[J].Expert Systemswith Applications,2019],当使用这些研究在真实的碎片(将文本文档打印在纸上,并且切割、扫描)是不合适的。因为大部分的研究是基于碎片边缘和基准线信息的,然而由于碎片可能会倾斜、裁剪时边缘缺失、扫描仪的曝光,难以判断边缘和基准线。第二个问题是复杂度,由于碎片仅有少量信息和大量难以去除的噪声(比如碎片电子图像中存在大量黑色像素点比较多的多墨行和多墨列),这个NP问题变得更加复杂。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种碎片复原方法,此方法通过行、列投影的方法,可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符,在保证准确率的前提下自动复原碎纸片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910467300.3/2.html,转载请声明来源钻瓜专利网。