[发明专利]一种版式文档段落识别方法有效
申请号: | 201610694835.0 | 申请日: | 2016-08-19 |
公开(公告)号: | CN106326854B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 孙上斌;王海;刘伟平;刘晓龙 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;叶北琨 |
地址: | 100124 北京市朝阳区高碑店乡半壁店*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 版式文档 页面 段落识别 分隔区 文字块 文字行 扫描线扫描 页面切割 扫描线 文档 排序 相交 并用 出版 | ||
本发明涉及一种版式文档段落识别方法,包括:1)对版式文档的页面进行文字行识别;2)用扫描线扫描所述页面,根据扫描线是否与文字行相交识别出页面中的各个空白分隔区,并用所述空白分隔区将所述页面切割成多个文字块;3)分别将各个文字块切分成段。本发明能够准确地识别出版式文档中的自然段,并且能够给出自然段之间的排序。
技术领域
本发明属于版式识别技术领域,具体地说,本发明涉及一种将版式文档转化为流式文档的技术。
背景技术
传统的出版书籍、各种报刊、杂志等阅读媒介都主要由版式文档组成。版式文档的特点是版面固定、不跑版,即所见即所得。在使用过程中,版式文档呈现效果不因软硬件环境、操作者的变化而变化,在版式、版面、字体、字号等方面与纸质文档保持完全一致。
另一方面,当前移动互联网处于高速发展时期,手机已经极大的普及了。人们正越来越多的从纸质阅读转移到手机电子阅读。而传统的阅读媒介都主要由版式文档组成,已经不能满足不同尺寸的移动设备对流式阅读体验的需求。所以版式文档转化为流式文档,能够将传统的版式阅读体验转移到最新的移动阅读体验上来。
要将版式文档转化为流式文档,首先需要将版式文档的段落识别出来,即识别出那些字句构成自然段、自然段之间如何排序等。然而,版式文档的版面设计各不相同,这给计算机的自动识别造成了诸多困难。例如:版式文档的版面中时常插入大小不一的图片,这对文字的连贯性会造成干扰,且版面中的文字有时横排有时竖排,并且,由于版面设计的原因,有的上、下文之间时常跳过一大块区域。上述这些版式文档的特性都给计算机自动识别版面中的段落造成了困难。
因此,当前迫切需求一种识别版式文档段落的解决方案。
发明内容
本发明的目的是提供一种识别版式文档段落的解决方案。
本发明提供了一种版式文档段落识别方法,包括下列步骤:
1)对版式文档的页面进行文字行识别;
2)用扫描线扫描所述页面,根据扫描线是否与文字行相交识别出页面中的各个空白分隔区,并用所述空白分隔区将所述页面切割成多个文字块;
3)分别将各个文字块切分成段。
其中,所述步骤2)中,所述用扫描线扫描所述页面包括用竖直扫描线横向扫描所述页面以及用水平扫描线纵向扫描所述页面,所述空白分隔区包括竖直空白分隔区和水平空白分隔区。
其中,所述步骤2)中,用所述空白分隔区将所述页面切割成多个文字块的方法如下:利用各个所述空白分隔区多次切割所述页面,其中优先使用分隔距离宽的所述空白分隔区进行切割。
其中,所述步骤2)包括下列子步骤:
21)用竖直扫描线对当前页面进行横向扫描,获得横向扫描过程中连续出现有效扫描线的区域,并将这些区域认定为竖直空白分隔区,所述有效扫描线是与任何文字行都不相交的扫描线;找出具有最大横向长度MaxHLine的最大竖直空白分隔区;
22)用水平扫描线对所述当前页面进行纵向扫描,获得纵向扫描过程中连续出现有效扫描线的区域,并将这些区域认定为水平空白分隔区;找出具有最大纵向长度MaxVLine的最大水平空白分隔区;
23)比较竖直空白分隔区的最大横向长度MaxHLine和水平空白分隔区的最大纵向长度MaxVLine的大小:
如果MaxHLine>MaxVLine且MaxHLine>0,则用对应于最大横向长度MaxHLine的竖直空白分隔区对当前页面做纵向切割,得到两个子页面;
如果MaxHLine<MaxVLine且MaxVLine>0,则用对应于最大纵向长度MaxVLine的水平空白分隔区对当前页面做横向切割,得到两个子页面;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610694835.0/2.html,转载请声明来源钻瓜专利网。