[发明专利]一种基于跳转处理及双重校验的多篇电子文档分篇算法有效
申请号: | 201610191135.X | 申请日: | 2016-03-30 |
公开(公告)号: | CN107291682B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 王艳;袁仁慧;梁洵 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/189 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084 北京市海淀区清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跳转 处理 双重 校验 电子 文档 算法 | ||
本发明新型公开了一种基于跳转处理及双重校验的多篇电子文档分篇算法,篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性等,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数、判定函数中,步骤二,根据特征组合提取文档的文章篇名(即文章的起始位置),对输入的电子文档的含字体信息位置信息的字符流进行合并行预处理,步骤三,基于印刷页码提示和基于分割线提示的跳转内容检索及处理,步骤四,文章终止位置的确定,获得文章篇名和处理完跳转内容后,判定文章终止位置及文章页码范围,步骤五,文章要素项数据提取,根据文章元素内容验证文章有效性及再标引。
技术领域
本发明涉及基于跳转处理及篇名双重校验的多篇电子文档分篇方法技术领域,具体为一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法。
背景技术
伴随着计算机和互联网技术的发展,如何根据用户多元的需求制作出多元化的数字产品已经是当前行业面临的主要问题,实现产品的多元化加工,必然要求前期的数据加工的规范化,碎片化,多篇文章的电子文档是数字出版行业需要处理一大类数据,实现此种电子文档的分篇是实现这种数据碎片化的基础,因此,对于此类文章的准确分篇有着十分重要的意义,现有技术中,专利CN101673256A公布的“一种基于文字流的文章元数据自动抽取方法及系统”提出利用规则模板提取文章元数据方法,处理文章内部元数据,不能处理处理多篇文章电子文档,专利CN102375808A公布“一种文档篇名提取方法和装置”利用预先设置的关键词及长度限制提取文档篇名,不能实现自动提取文章篇名并且对于没有明显关键词的篇名不具有适用性,专利CN101206639A公布“一种基于PDF的复杂版面的标引方法”提出针对报刊的文字块的生成和合并规则和整个提取内容和位置等信息的流程,简单根据文字块的属性判定文章,侧重电子文档的基础信息提取,并没有对分篇提出完整有效方案,专利CN200410091432.4公布的“一种对报纸版面进行篇名与正文逻辑关联的方法”利用语义的关联处理报刊的篇名与正文的匹配,属于语义识别范围,需要词库的支持,实现比较复杂。
发明内容
本发明的目的在于提供一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于跳转处理及篇名双重校验的多篇电子文档分篇方法,包括以下步骤:
步骤一:篇名标引特征提取及特征组合,根据多篇电子文档的文章字体字号、空间位置、语种属性,提取篇名特征,并将这些特征不同权重组合,形成篇名判定函数,判定函数的表示如下,
(Text.English=0)(height=(TextHeight*1.5))(Text.LengthTh1)((X2-X1)Th2)(((LeftSpaceTh3)+(RightSpaceTh3)+(TopSpace(TextRowSpace*1.5))+(BottomSpace(TextRowSpace*1.5))+(Align1)+(height=(TextHeight*1.8))+(Y1(PageHeight/3))+(font=maxfontofpage))=Th4),判定函数中,使用了语种,字体高度,字符长度,文本宽度,行左间距,行右间距,上下行距,居中居左居右属性,文本位置属性九种特征组合,Text表示输入行字符串内容,English表示文本的英文属性,height表示文本行的高度,TextHeight为统计文档获得的文档的平均行高,X1,X2,Y1分别表示文本行块的左右上位置坐标,LeftSpace、RightSPace、TopSpace、BottomSpace分别表示文本行的左右上下间距,TextRowSpace表示文档的平均行间距,Align表示文本行的居中居左或居右属性,font表示文本行字体高度,maxfontofpage表示统计获得的文档最大字体高度,Th1、Th2、Th3、Th4表示相关阈值,上述表达式中+表示属性的叠加,含义是统计待检文本行满足上述表达式的个数,该种判别函数融合多种篇名特征,具有较大的适应性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610191135.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:表格拆分方法及系统
- 下一篇:一种大数据发展趋势的预算方法和系统