[发明专利]文档图像中的表格底部有编号附注识别技术在审

申请号：	201910582520.0	申请日：	2019-06-26
公开（公告）号：	CN110399801A	公开（公告）日：	2019-11-01
发明（设计）人：	徐茂龙;杨鸿健;程晨	申请（专利权）人：	南京智录信息科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	210000 江苏省南京市江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种文档图像中的无边框表格解析方法，所述方法包括步骤：获取待识别范围内的所有非页眉页脚的页面元素；根据表格在页面中的位置信息，定位出表格结束后的第一个页面元素并获取相关信息；判断上述页面元素是否为纯文本，是则获取文本内容，否则继续判断后面的页面元素；针对通过上述判断的页面文本，首先进行文本内容预处理，再进行多次正则表达式匹配，并根据匹配结果判断是否为有编号附注；根据上述匹配结果，如果文本符合匹配结果判断标准，则此文本行为潜在的有编号附注起始行，同时根据匹配结果可知是否为无编号底部附注；针对有编号底部附注，获取编号模式后遍历下方的所有文本行，获取有编号附注的结束为止。
搜索关键词：	匹配结果页面元素文档图像文本内容预处理正则表达式编号模式表格解析判断标准文本内容相关信息页眉页脚页面文本纯文本起始行潜在的文本行无边框遍历页面匹配文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文档图像中的表格底部有编号附注识别方法，其特征在于，包括以下步骤：利用预先获取到页面信息，去除页面中的页眉页脚元素；获取表格结束后的第一个页面元素；对上述页面元素进行纯文本判断，根据判断结果决定是否需要判断后面的页面元素；针对上述获取到的纯文本内容，进行必要的预处理；针对上述预处理后的文本进行多种正则表达式匹配；根据上述匹配结果，判断目标文本是否为有编号附注起始行或无编号附注，寻找潜在的有编号附注起始行；针对被判断为有编号底部附注的文本，进行编号模式获取；根据获取到的编号模式，对目标文本后面的文本进行正则表达式匹配，寻找有编号附注结束位置。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京智录信息科技有限公司，未经南京智录信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910582520.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文档图像中的表格底部有编号附注识别技术在审

专利文献下载