[发明专利]一种版式文档段落识别方法有效
申请号: | 201610694835.0 | 申请日: | 2016-08-19 |
公开(公告)号: | CN106326854B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 孙上斌;王海;刘伟平;刘晓龙 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;叶北琨 |
地址: | 100124 北京市朝阳区高碑店乡半壁店*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种版式文档段落识别方法,包括:1)对版式文档的页面进行文字行识别;2)用扫描线扫描所述页面,根据扫描线是否与文字行相交识别出页面中的各个空白分隔区,并用所述空白分隔区将所述页面切割成多个文字块;3)分别将各个文字块切分成段。本发明能够准确地识别出版式文档中的自然段,并且能够给出自然段之间的排序。 | ||
搜索关键词: | 版式文档 页面 段落识别 分隔区 文字块 文字行 扫描线扫描 页面切割 扫描线 文档 排序 相交 并用 出版 | ||
【主权项】:
1.一种版式文档段落识别方法,其特征在于,包括下列步骤:1)对版式文档的页面进行文字行识别;2)用扫描线扫描所述页面,根据扫描线是否与文字行相交识别出页面中的各个空白分隔区,依据所述空白分隔区将所述页面切割成多个文字块,其中,所述扫描线是长度能够贯穿整个页面的线条;3)分别将各个文字块切分成段,其中,所述步骤2)中,所述用扫描线扫描所述页面包括用竖直扫描线横向扫描所述页面以及用水平扫描线纵向扫描所述页面,所述空白分隔区包括竖直空白分隔区和水平空白分隔区,所述步骤2)包括下列子步骤:21)用竖直扫描线对当前页面进行横向扫描,获得横向扫描过程中连续出现有效扫描线的区域,并将这些区域认定为竖直空白分隔区,所述有效扫描线是与任何文字行都不相交的扫描线;找出具有最大横向长度MaxHLine的最大竖直空白分隔区;22)用水平扫描线对所述当前页面进行纵向扫描,获得纵向扫描过程中连续出现有效扫描线的区域,并将这些区域认定为水平空白分隔区;找出具有最大纵向长度MaxVLine的最大水平空白分隔区;23)比较竖直空白分隔区的最大横向长度MaxHLine和水平空白分隔区的最大纵向长度MaxVLine的大小:如果MaxHLine>MaxVLine且MaxHLine>0,则用对应于最大横向长度MaxHLine的竖直空白分隔区对当前页面做纵向切割,得到两个子页面;如果MaxHLine<MaxVLine且MaxVLine>0,则用对应于最大纵向长度MaxVLine的水平空白分隔区对当前页面做横向切割,得到两个子页面;如果MaxHLine=0且MaxVLine=0,则表明当前页面不能再做切割,此时对当前页面的处理结束;步骤24)对步骤23)切割得到的子页面进行排序,然后依次将各子页面作为新的当前页面,返回步骤21)进行处理;这样不断重复递归,直到所有的子页面都不能再切割为止,此时就直接得到了排序后的文字块。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610694835.0/,转载请声明来源钻瓜专利网。