[发明专利]一种针对英文印刷文字双面打印破碎文件复原分析方法有效

专利信息
申请号: 201510008008.7 申请日: 2015-01-07
公开(公告)号: CN104537368B 公开(公告)日: 2018-10-09
发明(设计)人: 赵旭;程维虎;王云帆;刘爽;胡云升;张洋;赵天宇 申请(专利权)人: 北京工业大学
主分类号: G06K9/20 分类号: G06K9/20;G06K9/34
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种针对英文印刷文字双面打印破碎文件复原分析方法,图片预处理,为获取样本数据需对图片进行分割,以像素为单位将图片进行网格划分;二维匹配度模型的建立,定义xi为两碎片拼接时位于左侧的已固定碎片,为了有统一的度量标准,根据字母和汉字的上下距离的对称性,定义一个字母的中位线到碎片底端的距离,碎片边缘黑色小格的连续对接匹配连续度:二维匹配过程中存在向左匹配和向上匹配两个方向:二维黑白对接匹配模型,横向对接单行匹配度,纵向对接单列匹配度;二维匹配模型算法优化;二维匹配问题的综合聚类和匹配度函数;基于正反面特点的大碎片集合分类;基于正反面特点的结果检验。
搜索关键词: 一种 针对 英文 印刷 文字 双面 打印 破碎 文件 复原 分析 方法
【主权项】:
1.一种针对英文印刷文字双面打印破碎文件复原分析方法,其特征在于:该方法包括以下步骤,S1图片预处理;S2二维匹配度模型的建立;S3二维黑白对接匹配模型的建立;S4二维匹配模型算法优化;S5二维匹配问题的综合聚类和匹配度函数建立;S6基于正反面特点的大碎片集合分类;S7基于正反面特点的结果检验;各个步骤的详细操作过程如下,S1图片预处理;为获取样本数据需对图片进行分割,以像素为单位将图片进行网格划分,像素共有256种灰度值,当灰度值为0的时候为黑色,灰度值为255的时候为白色;将图像转化为灰度值矩阵,完成样本数据的获取;通过灰度值矩阵可以完成黑白色的识别;在图的拼接过程中要考虑整张碎片的每一行各网格的灰度;但由于笔画的长度、宽度未知,故只考虑整张碎片每一行最左端和最右端两个小格的灰度匹配结果;S2二维匹配度模型的建立;2.1定义xi为两碎片拼接时位于左侧的已固定碎片,xj为拼接时位于右侧的待拼接碎片;自下而上遍历,并作出以下定义,1)hi1、hj1分别为碎片xi、xj从下向上扫描时,第一次全行像素由不同灰度同时变为白色即全体灰度值骤变为255,或者全行像素由全为白色到开始出现非白即黑色时,此行到碎片最下端的距离;2)设hi2、hj2分别为碎片xi、xj从下向上扫描时,第二次全行像素由不同灰度同时变为白色即全体灰度值骤变为255,或者全行像素由全为白色到开始出现非白即黑色时,此行到碎片最下端的距离;3)设hi3、hj3分别为碎片xi、xj从下向上扫描时,第三次全行像素由不同灰度同时变为白色即全体灰度值骤变为255,或者全行像素由全为白色到开始出现非白即黑色时,此行到碎片最下端的距离;2.2为了有统一的度量标准,根据字母和汉字的上下距离的对称性,定义一个字母的中位线到碎片底端的距离如下:其中hi12、hi34…分别为碎片xi从下数第一个汉字、第二个…第n个汉字或字母的中位线到碎片底端的距离;对碎片xi和碎片xj进行匹配,设整张碎片所有字行中位线匹配差异度为当匹配差异度在误差范围内时,符合优化聚类要求,定义:其中,k1,k2为误差范围;2.3碎片边缘黑色小格的连续对接匹配连续度:定义M′bb:①两碎片xi、xj的第k行,xi右边缘的小格xik和xj的左边缘小格xjk均为黑色即灰度值为0的对接;②两碎片xk、xm的第k列,xm下边缘的小格xmk和xj的上边缘小格xjk均为黑色即灰度值为0的对接;碎片上一个字的一个笔画,一般包涵了不止一对黑色小格,由上而下发生连续的黑色小格的成功对接即Mbb越长,碎片匹配成功的可能性就越大,所以在对匹配小格权重上考虑了连续匹配,匹配度函数中若发生一次M′bb匹配的权重则定为5,连续两次匹配的权重定为5×2+2,发生连续n次黑黑匹配的权重则定为5×2+2(n‑1);对由上到下发生连续M′bb方式的成功匹配的权重定义得出以下局部连续度函数;2.4二维匹配过程中存在向左匹配和向上匹配两个方向:1)向左匹配,设xi为固定端碎片,xj为待匹配段碎片其中Fijk为第i号碎片和第j号碎片在第k行的连续度2)向上匹配,设xm为固定端碎片,xj为待匹配段碎片其中Gmjk为第i号碎片和第j号碎片在第k列的连续度;对于三张碎片的边缘整体以M′bb方式匹配连续度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配,和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度,定义整体匹配连续度函数:其中Zimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的整体匹配总连续度;S3二维黑白对接匹配模型;1)横向对接单行匹配度:2)纵向对接单列匹配度:对于三张碎片的边缘整体以M′bb方式总对接匹配度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配,和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度,可得如下黑白总对接匹配度函数:其中Qimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总对接匹配度;S4二维匹配模型算法优化:⑴连续性优化:碎片上一个字的一个笔画,包含了不止一对黑色小格,由上而下发生连续的黑色小格的成功对接Mbb越长,碎片匹配成功的可能性就越大,所以在对匹配小格权重上考虑了连续匹配,匹配度函数中将对不同Mbb连续的情况的权重进行不同大小的定义;其中定义Mbb如下:Mbb:两碎片xi、xj的第k行,xi右边缘的小格xik和xj的左边缘小格xjk均为黑色的对接;⑵横行对齐优化:由于碎片文字是由完整文件横切与纵切获得,因此碎片内每行文字均平行于碎片底边;故从碎片文件底边开始扫描,第一行所有像素非全白的横行为一行文字的下边缘,标记此横行的纵坐标;在此基础上继续向上扫描,第一行所有像素全为白色的横行为该行文字的上边缘,标记该横行的纵坐标;在此基础上继续向上扫描,重复上述两个步骤可以得到一个碎片内的文字行分布;相连两张碎片文件横行一定对齐;英文字母书写位于四线三行格内,同一碎片文件内一横行字母可能占三行中的:1)、中间一行2)、上中两行3)、中下两行4)、上中下三行;与此同时,英文标点符号“,”、“’”、“‑”,均不占满三行中的一行;在取得每一横行上下边缘后,取平均值以减小误差;最后根据平均值对齐且在误差范围内,优化碎片匹配结果;当一个文字被切为二到四部分后,当为纵切时,其左右两个不完整文字的宽度的和为一个完整文字的宽度;由于每个文字字号相同,因此每个文字的宽度在某一定值附近上下浮动;首先用判断图片是否为边缘起始的算法判断该碎片文件边缘有无不完整文字;当有不完整文字时,使用“横行对齐优化”算法确定不完整文字的位置,即其横纵坐标范围;由此可以获得不完整文字的宽度;根据合成完整文字的两个不完整文字的宽度的和为定值,从而优化匹配结果;当不完整文字为横切时处理方法类似,获取不完整文字的高度,再与其他碎片的不完整文字高度比较;⑶灰度匹配优化当某一笔画正好处于分割边缘时,如果简单将其一边认为是黑,一边认为是白,会造成大量匹配失败,故增加灰度匹配优化;当灰色与白色拼接时,对匹配度无影响;当灰色与黑色拼接时,匹配正确;从而增加匹配的成功率;S5二维匹配问题的综合聚类和匹配度函数;对于英文碎片,若满足如下关系式H+J=1即两碎片仅满足横行对齐聚类要求,则可进行匹配检测,二维匹配时的三张碎片的匹配度由如下函数定义:Pimj=Qimj+Zimj其中Pimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的总匹配度;S6基于正反面特点的大碎片集合分类;进行“任意3块碎片文件不能两两分别属于三个大碎片集合”的检验后即可通过正反面的特点对大碎片集合分类,分成正面与反面两类;通过遍历所有分别属于3个大碎片集合的2个碎片文件即可将全部大碎片集合完成分类;任意指定一类为正面,从而另一面为反面;有000,001两个碎片文件,当000a属于大碎片集合A,000b属于大碎片集合B,001a属于B,001b属于C;根据“同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中”这一特点可以判断出A、C属于同一平面;S7基于正反面特点的结果检验;1)同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中;2)任意3块碎片文件不能两两分别属于三个大碎片集合;证明:任取xi、xj、xm为000,001,002三个碎片文件,若000a,001a属于大碎片集合A,000b,002a属于大碎片集合B,001b,002b属于大碎片集合C;由碎片文件000可知,A、B两个大碎片集合不属于同一面;由碎片文件001可知,A、C两个大碎片集合不属于同一面;由碎片文件002可知,B、C两个大碎片集合不属于同一面;然而由于完整文件只有两面,所以三个推断矛盾,因此任意3块碎片文件不能两两分别属于三个大碎片集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510008008.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top