[发明专利]一种版式文档段落识别方法有效
申请号: | 201610694835.0 | 申请日: | 2016-08-19 |
公开(公告)号: | CN106326854B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 孙上斌;王海;刘伟平;刘晓龙 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;叶北琨 |
地址: | 100124 北京市朝阳区高碑店乡半壁店*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 版式文档 页面 段落识别 分隔区 文字块 文字行 扫描线扫描 页面切割 扫描线 文档 排序 相交 并用 出版 | ||
1.一种版式文档段落识别方法,其特征在于,包括下列步骤:
1)对版式文档的页面进行文字行识别;
2)用扫描线扫描所述页面,根据扫描线是否与文字行相交识别出页面中的各个空白分隔区,依据所述空白分隔区将所述页面切割成多个文字块,其中,所述扫描线是长度能够贯穿整个页面的线条;
3)分别将各个文字块切分成段,
其中,所述步骤2)中,所述用扫描线扫描所述页面包括用竖直扫描线横向扫描所述页面以及用水平扫描线纵向扫描所述页面,所述空白分隔区包括竖直空白分隔区和水平空白分隔区,
所述步骤2)包括下列子步骤:
21)用竖直扫描线对当前页面进行横向扫描,获得横向扫描过程中连续出现有效扫描线的区域,并将这些区域认定为竖直空白分隔区,所述有效扫描线是与任何文字行都不相交的扫描线;找出具有最大横向长度MaxHLine的最大竖直空白分隔区;
22)用水平扫描线对所述当前页面进行纵向扫描,获得纵向扫描过程中连续出现有效扫描线的区域,并将这些区域认定为水平空白分隔区;找出具有最大纵向长度MaxVLine的最大水平空白分隔区;
23)比较竖直空白分隔区的最大横向长度MaxHLine和水平空白分隔区的最大纵向长度MaxVLine的大小:
如果MaxHLine>MaxVLine且MaxHLine>0,则用对应于最大横向长度MaxHLine的竖直空白分隔区对当前页面做纵向切割,得到两个子页面;
如果MaxHLine<MaxVLine且MaxVLine>0,则用对应于最大纵向长度MaxVLine的水平空白分隔区对当前页面做横向切割,得到两个子页面;
如果MaxHLine=0且MaxVLine=0,则表明当前页面不能再做切割,此时对当前页面的处理结束;
步骤24)对步骤23)切割得到的子页面进行排序,然后依次将各子页面作为新的当前页面,返回步骤21)进行处理;这样不断重复递归,直到所有的子页面都不能再切割为止,此时就直接得到了排序后的文字块。
2.根据权利要求1所述的版式文档段落识别方法,其特征在于,所述步骤2)中,用所述空白分隔区将所述页面切割成多个文字块的方法如下:利用各个所述空白分隔区多次切割所述页面,其中先使用分隔距离宽的所述空白分隔区进行切割。
3.根据权利要求1所述的版式文档段落识别方法,其特征在于,所述步骤24)中,在每次切割时,根据切割得到的两个子页面的左右位置或上下位置对这两个子页面进行排序。
4.根据权利要求3所述的版式文档段落识别方法,其特征在于,所述步骤24)中,根据每次切割时得到的两个子页面的排序,得到整个所述页面的所有文字块的排序。
5.根据权利要求1所述的版式文档段落识别方法,其特征在于,所述步骤1)包括:提取版式文档页面中的所有文字及该文字的位置信息,根据各个文字的位置信息,基于行识别算法将各个文字合并,得到相应的文字行。
6.根据权利要求5所述的版式文档段落识别方法,其特征在于,所述步骤1)中,行识别算法包括下列子步骤:
步骤11)对于当前待识别页面的对象集合,根据其中各个文字的位置,计算文字之间的距离,找出距离最接近的两个文字;其中,对象集合中的对象包括文字和文字行;
步骤12)将所找出的两个文字合并成为文字行LA,将已合并的文字从当前待识别页面的对象集合中删去,并在该对象集合中加入文字行LA,然后根据两个文字的位置关系,得到该文字行LA的方向信息,并进一步生成该文字行LA的基础对象数据,所述基础对象数据包括文字行的字号和轮廓;
步骤13)在当前待识别页面的对象集合中遍历所有文字,找到与文字行LA位置最接近的一个文字WB;
步骤14)根据字号、文字方向和轮廓,判别文字行LA与文字WB合并是否合理,如果不合理,返回步骤11);否则,将文字行LA与文字WB合并成新行LC,然后继续执行步骤15);
步骤15)用新行LC作为新的当前文字行LA,返回步骤13)开始下一轮的处理;
上述步骤11)~15)不断循环,直至待识别页面的对象集合中的所有文字均合并成文字行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610694835.0/1.html,转载请声明来源钻瓜专利网。