[发明专利]版面分栏方法及装置有效
申请号: | 201711365898.2 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108021900B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 胡雨隆;胡金水 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414 |
代理公司: | 北京华圣典睿知识产权代理有限公司 11510 | 代理人: | 陈国伟 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 版面 分栏 方法 装置 | ||
本发明公开了一种版面分栏方法及装置,该方法包括:获取待分栏文本图像;沿Y轴扫描整张所述待分栏文本图像,保存X轴上的空白段;分别沿Y轴自上而下和/或自下而上扫描所述空白段,得到第一组分割线和/或第二组分割线;根据所述第一组分割线和/或所述第二组分割线得到基于整体分析的分栏结果。利用本发明,针对复杂手写版面,也能得到理想的分栏效果。
技术领域
本发明涉及图像处理领域,具体涉及一种版面分栏方法及装置。
背景技术
随着计算机科学与技术的发展,自动化信息处理能力和水平也得到了显著的提高。文档的电子化应用已遍及人们生活工作中各个方面,对工作方式、生活方式带来了巨大的变革,也深刻影响到了教育领域。文档中版面的分析、分栏是文档电子化过程中必不可少的步骤之一,其分析的准确性直接影响文档电子化的结果,因而一直受到相关技术研究人员的重视。
现有的针对文档版面分栏的主流方法:基于印刷体文档中的栏多是规整矩形考虑,通过在空白区域进行矩阵检测与归纳,找到栏与栏之间的间隔,最终得到分栏结果。
这种版面分栏方法只在排版整齐、棱角分明的文档(以印刷体文档为典型)有效,而对于书写杂乱、存在多栏,且各栏之间分布无规律可循的手写文档,尤其是数理化的解题文档,现有的版面分栏效果则很不理想。
发明内容
本发明实施例提供一种版面分栏方法及装置,以便针对复杂手写版面,也能得到理想的分栏效果。
为此,本发明提供如下技术方案:
本发明实施例提供的版面分栏方法及装置,将整张图像作为分析对象,通过空白段分析找到沿Y轴的栏分割线,将整张图像分割成多栏,即基于整体分析的分栏结果。
进一步地,在基于整体分析的分栏结果基础上,将每个栏作为分析对象,针对每个分析对象,先对其进行文本行切分,然后以文本行为最小单元对文本行进行合并成栏处理,得到最终分栏结果。
进一步地,将整张图像作为分析对象,先对其进行文本行切分,然后以文本行为最小单元对文本行进行合并成栏处理,得到基于文本行合并的分栏结果,最后对基于整体分析的分栏结果和基于文本行合并的分栏结果取并集,得到最终分栏结果。
本发明方案不仅适用于排版整齐、棱角分明文档,而且更适用于版面中存在多栏、且栏分布没有固定规则的复杂手写版面的分栏,比如数学试卷中手写答案,可以得到准确的分栏结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例版面分栏方法的一种流程图;
图2是本发明实施例中X轴上空白段示意图;
图3是本发明实施例版面分栏方法的另一种流程图;
图4是本发明实施例版面分栏方法的另一种流程图;
图5是本发明实施例版面分栏方法的另一种流程图;
图6是本发明实施例中对文本行进行合并成栏处理的流程图;
图7是本发明实施例版面分栏装置的一种结构示意图;
图8是本发明实施例版面分栏装置的另一种结构示意图;
图9是本发明实施例版面分栏装置的另一种结构示意图;
图10是本发明实施例中分栏处理模块的一种结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711365898.2/2.html,转载请声明来源钻瓜专利网。