[发明专利]一种版式文件自动成文的方法及系统有效
申请号: | 200810227302.7 | 申请日: | 2008-11-26 |
公开(公告)号: | CN101441621A | 公开(公告)日: | 2009-05-27 |
发明(设计)人: | 徐剑波;董宁;王辉 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 郭润湘 |
地址: | 100871北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 版式 文件 自动 成文 方法 系统 | ||
1.一种版式文件自动成文的方法,其特征在于,该方法包括:
A:从文字块集合{S}中筛选出标题块集合{T},根据所述标题块集合{T}得到文章集合{A};
B:从文字块集合{S}中获取与文章集合{A}中匹配的文字块,设置为文章正文;
C:获取文章集合{A}中的每篇文章,设置所述文章的其他组成信息。
2.如权利要求1所述的版式文件自动成文方法,其特征在于:步骤A具体为:
A1:从版式文件中获取的文字块集合{S}中筛选出文字块属性为标题的文字块,设置为标题块集合{T},并将其从原集合{S}中去除;
A2:创建文章集合{A};按文字块的信息,对标题块集合{T}进行比较、聚类;筛选出属于同一文章的标题块,得到文字块集合;验证筛选文字块集合中的文字块是否属于同一篇文章;创建相应的文章,将文字块集合设置为文章的标题块集合;将创建的文章添加到文章集合{A}中;最后得到文章集合{A}。
3.如权利要求2所述的版式文件自动成文方法,其特征在于:按文字块的信息,对标题块集合{T}进行比较、聚类的具体实现方法为:
A21:创建一个新的文字块集合{R},选取标题块集合{T}中第一个文字块,设为T1,将文字块T1添加到集合{R}中,并从标题块集合{T}中删除;
A22:以文字块T1为依据,对标题块集合{T}进行遍历,筛选出标题块集合{T}中与文字块T1的近邻的文字块;筛选出来的文字块放置在文字块集合{R}中,并从标题块集合{T}中删除筛选出来的文字块;依次获取筛选出来的文字块,设置为T1,再次执行本步骤,直至文字块集合{R}中的文字块取完为止;最终得到文字块集合{R};
A23:创建一篇文章;筛选文字块集合{R},筛选出不属于同一篇文章的文字块并重新添加到标题块集合{T}中,并从文字块集合{R}中删除;检索完之后,将该文字块集合{R}设置成为文章的标题块集合;将创建的文章添加到文章集合{A}中;
A24:重复步骤A21和A23;直至标题块集合{T}中文字块取完为止;最后得到文章的集合{A}。
4.如权利要求3所述的版式文件自动成文方法,其特征在于:判断两个文字块近邻的操作为:
设取到的文字块T1的左上角坐标为(X1,Y1),右下角坐标为(X1’,Y1’);文字块T1的宽度为W1=X1’-X1,文字块T1的高度H1=Y1’-Y1,文字块T1的字体大小为f1;
被遍历到的文字块T2左上角坐标为(X2,Y2),右下角坐标为(X2’,Y2’);文字块T2的宽度为W2=X2’-X2,文字块T2的高度H2=Y2’-Y2,文字块T2的字体大小为f2;
版面平均字体大小为所有的文字块的字号的平均值,设置为AvgFontSize;然后进行如下操作:
(4.1)通过如下公式计算文字块T1与文字块T2紧邻的有效距离:
DistThreshold=C1*AvgFontSize+max(f1,f2)/C2;
其中C1为两个文字块之间的间距系数,C2为文字块的均分系数;
(4.2)计算文字块T1与文字块T2最小重叠度:
水平方向上的最小重叠度:
OverlapXMin=(min(X1’,X2’)-max(X1,X2)))/min(X1’-X1,X2’-X2);
垂直方向上的最小重叠度:
OverlapYMin=(min(Y1’,Y2’)-max(Y1,Y2)))/min(Y1’-Y1,Y2’-Y2));
(4.3)计算文字块与文字块的重叠距离:
水平方向上的重叠距离DistX:
DistX=max(X1,X2)-min(X1’,X2’);
垂直方向上的重叠距离DistY:
DistY=max(Y1,Y2)-min(Y1’,Y2’);
以上max(a,b)表示取两者的较大值,min(a,b)表示取两者的较小值;
(4.4)判定如下条件是否其中一项成立:
AA.文字块T1对应的文字块的排版类型为从左到右的横排或者从右到左的横排时,且OverlapXMin>Dxmin且DistY<DistThreshold;
BB.文字块T1对应的文字块的排版类型不是从左到右的横排或者从右到左的横排时,且OverlapYMin>Dymin且DistX<DistThreshold;
其中Dxmin和Dymin为两个文字块之间水平和垂直方向上的最小近邻重叠系数;
如果以上任何一项成立,那么文字块T1与文字块T2近邻,将文字块T2从标题块集合{T}中删除,添加到文字块集合{R}中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810227302.7/1.html,转载请声明来源钻瓜专利网。