[发明专利]文档图像中的表格底部有编号附注识别技术在审

申请号：	201910582520.0	申请日：	2019-06-26
公开（公告）号：	CN110399801A	公开（公告）日：	2019-11-01
发明（设计）人：	徐茂龙;杨鸿健;程晨	申请（专利权）人：	南京智录信息科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	210000 江苏省南京市江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	匹配结果页面元素文档图像文本内容预处理正则表达式编号模式表格解析判断标准文本内容相关信息页眉页脚页面文本纯文本起始行潜在的文本行无边框遍历页面匹配文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种文档图像中的无边框表格解析方法，所述方法包括步骤：获取待识别范围内的所有非页眉页脚的页面元素；根据表格在页面中的位置信息，定位出表格结束后的第一个页面元素并获取相关信息；判断上述页面元素是否为纯文本，是则获取文本内容，否则继续判断后面的页面元素；针对通过上述判断的页面文本，首先进行文本内容预处理，再进行多次正则表达式匹配，并根据匹配结果判断是否为有编号附注；根据上述匹配结果，如果文本符合匹配结果判断标准，则此文本行为潜在的有编号附注起始行，同时根据匹配结果可知是否为无编号底部附注；针对有编号底部附注，获取编号模式后遍历下方的所有文本行，获取有编号附注的结束为止。

技术领域

本发明涉及数据处理技术领域，特别涉及一种文档图像中的表格底部有编号附注识别方法

背景技术

随着电脑的不断普及，无纸化办公得到越来越多的应用，各种各样的文档也大量的出现在用户的面前。

以可移植文档格式(Portable Document Format，PDF)、office文档为例，PDF文件格式以其卓越的特性成为在Internet上进行电子文档发行和格式化信息传播的理想文件格式，在将PDF格式的文档转换office格式的文档时，面临较多的困难。

譬如PDF格式文档中的表象为表格的对象，在其内部是由很多彼此无任何逻辑关系的线条或多边形组成的。在将PDF转换为其他格式的文档，特别转换为office类的文档时，由于PDF没有表格元素，很难跟office类文档兼容，使转换出的文档的排版、及编辑效果都很差。

在将者如PDF格式文档等原文档中的表格转换为其他文档格式的表格时，如何提高转换出的文档的排版及编辑效果，是文档应用领域研究的方向之一。

发明内容

利用预先获取到页面信息，去除页面中的页眉页脚元素；

获取表格结束后的第一个页面元素；

对上述页面元素进行纯文本判断，根据判断结果决定是否需要判断后面的页面元素；

针对上述获取到的纯文本内容，进行必要的预处理；