[发明专利]一种反解版式文件后得到的图片和图说的自动关联方法有效
申请号: | 200810223698.8 | 申请日: | 2008-10-08 |
公开(公告)号: | CN101714149A | 公开(公告)日: | 2010-05-26 |
发明(设计)人: | 徐剑波;董宁;王辉 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 北京天悦专利代理事务所 11311 | 代理人: | 田明;任晓航 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 版式 文件 得到 图片 图说 自动 关联 方法 | ||
1.一种反解版式文件后得到的图片和图说的自动关联方法,包括以下步 骤:
(1)从反解版式文件后得到的文字块集合{S}中取出一个未被取出过的 属性为正文的文字块;
(2)在反解版式文件后得到的图片块集合{P}中查找与步骤(1)中取出 的文字块近邻的图片块,如果没有一个图片块与该文字块近邻,则转至步骤 (3),如果仅有一个图片块与该文字块近邻,则将此文字块作为该图片块的 候选图说,如果有两个或两个以上的图片块与该文字块近邻,则筛选出位置 最好的图片块,将此文字块作为该图片块的候选图说;在图片块集合{P}中查 找与文字块近邻的图片块的方法为:判断图片块与文字块是否在水平方向上 或者在竖直方向上近邻,如果在水平方向上或者在竖直方向上近邻,则图片 块与文字块近邻,步骤如下:
假设文字块左上角点坐标为(X1,Y1)、右下角点坐标为(X1′,Y1′),图片 块左上角点坐标为(X2,Y2),右下角点坐标为(X2′,Y2′);文字块的宽度W= X1′-X1,图片块的宽度W′=X2′-X2;文字块的高度H=Y1′-Y1,图片块的高 度H′=Y2′-Y2;所有文字块的字号的平均值为AvgFontSize;图说与图片 块之间的有效距离DistThreshold=C1*AvgFontSize,其中C1为文字块与图片 块之间的间距系数,1<C1<5;下述min函数表示取两者的较小值,max函 数表示取两者的较大值,D为延伸距离,0≤D≤10,单位为磅;
①计算图片块与文字块的重叠度:
在水平方向上的重叠度OverlapX的计算公示为
OverlapX=(min(X1′,X2′)-max(X1,X2))/(max(X1′,X2′)-min(X1,X2)),
在竖直方向上的重叠度OverlapY的计算公示为
OverlapY=(min(Y1′,Y2′)-max(Y1,Y2))/(max(Y1′,Y2′)-min(Y1,Y2));
②判断Y1≥Y2-D且Y1′≤Y2′+D且X1≥X2-D且X1′≤X2′+D是否成立; 如果成立,则继续判断OverlapY是否大于OverlapX,若大于,则图片块与 文字块在水平方向上近邻,否则图片块与文字块在竖直方向上近邻;如果不 成立,则计算图片块与文字块在水平方向上的重叠距离DistX,DistX =max(X1,X2)-min(X1′,X2′);
③判断Y1≥Y2-D且Y1′≤Y2′+D且W<W′且DistX<DistThreshold是否 成立,如果成立,则图片块与文字块在水平方向上近邻;否则计算图片块与 文字块的最大距离DistXMax,如果X1<X2,则DistXMax=X2-X1,否则DistXMax =|X2′-X1′|;
④判断Y1≥Y2-D且Y1′≤Y2′+D且W<W′且DistMax<W′/2是否成立, 如果成立,则图片块与文字块在水平方向上近邻;否则,计算图片块与文字 块在竖直方向上的重叠距离DistY,DistY=max(Y1,Y2)-min(Y1′,Y2′);
⑤判断X1≥X2-D且X1′≤X2′+D且H<H′且文字块的排版类型为从左到 右的横排或者从右到左的横排且DistY<DistThreshold是否成立,如果成立, 则图片块与文字块在竖直方向上近邻,否则图片块与文字块即不在水平方向 上也不在竖直方向上近邻;
筛选出位置最好的图片块的方法包括以下步骤:
假设步骤(1)中取出的文字块为T,与T临近的图片块集合为{TP},位 置最好的图片块为PZ;
①分别计算出{TP}中所有的图片块的图说类型PicType,以及T和{TP} 中所有的图片块之间的距离Dist;所述的图片块的图说类型是指文字块相对 于图片块的位置,包括文字块在图片块的上侧、文字块在图片块的左侧、文 字块在图片块的右侧和文字块在图片块的下侧;
②从{TP}中任意取出一个图片块P,并将取出的图片块从{TP}中删除; 另PZ=P;
③从{TP}中任意取出一个图片块PN,将PN从{TP}中删除;从PZ和PN 中筛选出一个位置较好的图片块,如果PN位置较好,则另PZ=PN;
从PZ和PN中筛选出一个位置较好的图片块的方法为:假设PZ的图说类 型为PicTypeZ,PN的图说类型为PicTypeN,T与PZ之间的距离为DistZ,T 与PN之间的距离为DistN;
如果满足下列条件之一,则PN比PZ位置好:
条件a.PicTypeN与PicTypeZ相同且DistN<DistZ,
条件b.PicTypeN为文字块在图片块的右侧且PicTypeZ为文字块在图片 块的左侧且DistN<DistZ,
条件c.PicTypeN的优先级高于PicTypeZ且PicTypeN为文字块在图片块 的右侧与PicTypeZ为文字块在图片块的左侧两者不同时成立;其中,文字块 在图片块的下侧的优先级高于文字块在图片块的左侧和右侧,文字块在图片 块的左侧或右侧的优先级高于文字块在图片块的上侧;
④判断{TP}是否为空,如果为空,则PZ即为位置最好的图片块;否则, 转至步骤③;
(3)重复以上步骤,直到文字块集合{S}中的所有文字块被取出一次;
(4)确定图片块集合{P}中每一个图片块的图说;如果一个图片块的候选 图说仅有一个,则将该候选图说作为该图片块的图说;如果一个图片块的候选 图说为多个,则筛选出最合适的候选图说作为该图片块的图说,包括以下步骤:
假设一个图片块的候选图说集合为{L};
①将{L}中图说类型相同的文字块合并成为一个文字块,合并后的文字块 与图片块的重叠度为被合并的文字块与图片块的重叠度之和,权重为被合并 的文字块的个数;
②从合并后的{L}中挑选出权重值最大的文字块作为图片块的图说,如果 权重值最大的文字块为多个,则比较权重值最大的多个文字块与图片块的重 叠度,将与图片块重叠度最大的文字块作为图片块的图说。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810223698.8/1.html,转载请声明来源钻瓜专利网。