[发明专利]一种基于跳转处理及双重校验的多篇电子文档分篇算法有效
申请号: | 201610191135.X | 申请日: | 2016-03-30 |
公开(公告)号: | CN107291682B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 王艳;袁仁慧;梁洵 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/189 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084 北京市海淀区清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明新型公开了一种基于跳转处理及双重校验的多篇电子文档分篇算法,篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,步骤二,根据特征组合提取文档的文章篇名(即文章的起始位置),对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,步骤三,基于印刷页码提示和基于分割线提示的跳转内容检索及处理,步骤四,文章终止位置的确定,获得文章篇名和处理完跳转内容后,判定文章终止位置及文章页码范围,步骤五,文章要素项数据提取,根据文章元素内容验证文章有效性及再标引。 | ||
搜索关键词: | 一种 基于 跳转 处理 双重 校验 电子 文档 算法 | ||
【主权项】:
一种基于跳转处理及双重校验的多篇电子文档分篇算法,其特征在于:包括以下步骤:步骤一:篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,判定函数的表示如下,(Text.English=0)&&(height>=(TextHeight*1.5))&&(Text.Length>Th1)&&((X2‑X1)>Th2)&&(((LeftSpace>Th3)+(RightSpace>Th3)+(TopSpace>(TextRowSpace*1.5))+(BottomSpace>(TextRowSpace*1.5))+(Align&1)+(height>=(TextHeight*1.8))+(Y1<(PageHeight/3))+(font=maxfontofpage))>=Th4),判定函数中,使用了语种,字体高度,字符长度,文本宽度,行左间距,行右间距,上下行距,居中居左居右属性,文本位置属性等九种特征组合,上述伪代码中,Text表示输入行字符串内容,English表示文本的英文属性,height表示文本行的高度,TextHeight为统计文档获得的文档的平均行高,X1,X2,Y1,Y2分别表示文本行块的左右上下位置坐标,LeftSpace,RightSPace,TopSpace,BottomSpace分别表示文本行的左右上下间距,TextRowSpace表示文档的平均行间距,Align表示文本行的居中居左或居右属性,font表示文本行字体高度,maxfontofpage表示统计获得的文档最大字体高度,上述表达式中+表示属性的叠加,表示文本行满足上述表达式中Th4个即可判读为篇名,该种判别函数融合多种篇名特征,具有较大的适应性。步骤二:根据特征组合提取文档的文章篇名(即文章的起始位置),对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,获得以行为单位的文字块,并统计单位块的行特征(行高,行字体,语种属性等),根据特征组合形成的篇名判定函数搜索判定函数值为真的文本行串,提取文档的文章篇名(即文章的起始位置),对于输入的字符流进行行合并,根据字符流顺序,判断水平方向位置交叉且字体高度相差小于阈值的字符合并为一行,即(min(Bt1,Bt2)‑max(Tp1,Tp2))>Th1&&(Lf1‑Lf2)<Th2&&(Font1‑Font2<Th3,其中Bt、Bt2、Tp1、Tp2、Lf1、Lf2、Font1和Font2分别为输入两个字符的下,上,左位置及字体高度,Th1、Th2和Th3分别为两个字水平交叉阈值,左右距离阈值,字体高度差距阈值,阈值根据统计获得文档平均行高,字体高度给出,获得合并行后,统计并记录行的高度、字体、语种和位置等特征,根据电子文档页眉页脚在多页上具有相似性的特征,在文档多个页面的页眉页脚候选区域搜索相似内容,确定页眉页脚与正文的分割位置,页眉(页脚)搜索方法的具体实现步骤为,Step1.搜索间隔步长t1=1,搜索起始页P为页码范围内某常数,Step2.设起始页增值i=0,Step3.后续搜索页间隔数n=1,Step4.设起始页pi=p+i,i=0、3、6......24,当前搜索页p2为p2=p1+n*t1,Step5在页p1,p2的页眉(页脚)候选区,搜索位置与内容相似的文本块,若未找到,则i=i+1,跳转至Step6,若找到,则令n=n+1,跳转至Step4,Step6.如果n<3,返回Step4继续执行,否则跳转至Step9,Step7.如果i<10,令i=i+1返回Step3,否则跳转至Step8,Step8.如果t1<4,令t1=t1+1,返回Step2,否则跳转至Step10,Step9.找到页眉(页脚)内容,将存储的文本块合并获得页眉底部位置(页脚顶部位置)为页眉(页脚)与正文的分割位置,设置有效的页眉(页脚)位置,Step10.未找到页眉(页脚)区,将页眉(页脚)位置设为无效值,此页眉页脚搜索方法通过变步长多页搜索,能兼容奇偶页页眉页脚排版不同,文章首页页眉页脚排版不同的情况,具有较大的稳定性及适应性,在获得文档行及行属性后,依据步骤一中给出判定函数,搜索符合判定函数的正文行(页眉页脚行除外),判定为文章的篇名。步骤三:基于印刷页码提示和基于分割线提示的跳转内容检索及处理,跳转是指为了排版的美观及版面的合理利用,将部分文章的尾部内容排版在其他文章后面,本发明中将有跳转内容文章的连续排版的末尾处称为跳转位置,将跳转内容起始处称为接续位置,根据文档跳转一般分为印刷页码提示跳转和基于分割线提示的跳转两种情况处理。步骤四:文章终止位置的确定,获得文章篇名和处理完跳转内容后,判定文章终止位置及文章页码范围,文章终止位置依据文章内容完结处有较大空白行或者空页或者跳转内容结束位置确定,本方法统计标引出篇名的居顶属性,对于文章居顶的文档,当前文章结束位置为下一文章篇名的前一页,非居顶文章则根据下一篇文章篇名及其前的空白位置确定。步骤五:文章要素项数据提取,根据文章元素内容验证文章有效性及再标引,确定文章起止范围后,在文章内部提取文章要素项数据,文章要素项包括作者和机构、摘要、关键词和参考文献等,根据视觉特征和内容关键词特征相结合的原则,提取每篇文章的要素项,获得文章要素项后,根据以下规则可以判定当前文章的有效性,((Abstract+Keyword+CLCNum+DocCode+Fund+AuthorInfo)>=Th1)||((TIT LE.HEIGHT>TextHeight*1.75)&&((TITLE.LeftSpace>Th2)&&(TITLE.RightSp ace>Th3)&&TITLE.TopSpace>(TextRowSpace*1.5))&&(TITLE.BottomSpace>(TextRowSpace*1.5))&&(TITLE.Align&1),上述特征组合的字符含义同步骤一中,表达式文章有效性判断规则为,有效文章需满足超过阈值个要素项或者满足典型篇名的视觉特征(行高,居中,左右上下行间距特征等),若判为无效文章则删除此文章,并返回步骤三重新处理其前篇文章;步骤六:文章目录链接及基于目录链接置文章置信度,文章目录链接及基于目录的有效性验证及再标引,目录是文章的提纲,含有文章的篇名及页码范围信息,本发明将文档前后的非文章页码区域设置为页码候选区,根据已经获得文章篇名,依次在每个目录区候选页上匹配文章篇名,并统计匹配上的篇名个数,如果超过个数阈值,则将此页加入到目录区,依次搜索获得所有目录页,获得所有目录页后,首先分析目录页目录条目排版版式,通过统计目录条目标识符及数字排版特征,并处理目录折行情况,确定目录版式,根据版式解析目录条目,以文章篇名顺序,依次以相似度递减方式匹配目录条目,获得相似度最高的目录条目作为文章篇名的链接,如果相似度低于阈值,则当前文章未找到目录链接,统计整体目录链接正确率,如果正确率高于一定阈值,则此目录链接可作为判定分篇置信度的依据,利用目录条目页码检查分篇情况,并设置对应文章的置信度,获得文章篇名的目录链接后,统计整体链接正确率,如果链接正确率超过一定阈值,链接可信度较高,根据链接目录条目对应的提示页码检查文章页码范围,并给文章设置相应置信度,本算法中暂将置信度分为三个等级,第一级,文章目录链接没有链上,此级为可信度较低文章,需要重点检查文章分篇及页码情况,第二级,文章目录链接链上,但是目录页码与分篇获得页码不一致,此级为中间置信度,需要检查页码情况,第三级,文章目录链接链上,并且目录页码与分篇获得页码一致,此级置信度可以确定此文章分篇正确。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610191135.X/,转载请声明来源钻瓜专利网。
- 上一篇:表格拆分方法及系统
- 下一篇:一种大数据发展趋势的预算方法和系统