[发明专利]文档图像中的表格底部有编号附注识别技术在审

申请号：	201910582520.0	申请日：	2019-06-26
公开（公告）号：	CN110399801A	公开（公告）日：	2019-11-01
发明（设计）人：	徐茂龙;杨鸿健;程晨	申请（专利权）人：	南京智录信息科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	210000 江苏省南京市江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	匹配结果页面元素文档图像文本内容预处理正则表达式编号模式表格解析判断标准文本内容相关信息页眉页脚页面文本纯文本起始行潜在的文本行无边框遍历页面匹配文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文档图像中的表格底部有编号附注识别方法，其特征在于，包括以下步骤：

利用预先获取到页面信息，去除页面中的页眉页脚元素；

获取表格结束后的第一个页面元素；

对上述页面元素进行纯文本判断，根据判断结果决定是否需要判断后面的页面元素；

针对上述获取到的纯文本内容，进行必要的预处理；

针对上述预处理后的文本进行多种正则表达式匹配；

根据上述匹配结果，判断目标文本是否为有编号附注起始行或无编号附注，寻找潜在的有编号附注起始行；

针对被判断为有编号底部附注的文本，进行编号模式获取；

根据获取到的编号模式，对目标文本后面的文本进行正则表达式匹配，寻找有编号附注结束位置。

2.根据权利要求1所述的方法，其特征在于，获取表格结束后的第一个页面元素的步骤包括：

从页面底部开始，对页面内的元素进行遍历，并进行判断；

若上述过程未在当前页面找到目标页面元素，则在下一页从页面顶部开始遍历寻找。

3.根据权利要求1所述的方法，其特征在于，针对上述获取到的纯文本内容，进行必要的预处理的步骤包括：

将文本中的所有中文符号替换为英文符号；

将编号类的特殊字符替换为普通字符的组合；

去除文本两端的多余空格。

4.根据权利要求1所述的方法，其特征在于，针对上述预处理后的文本进行多种正则表达式匹配的步骤包括：

匹配单独一行，且以冒号结尾的文本；

匹配符合“^附？注释？$？[1ai一]$？[：、]？”正则表达式的文本；

匹配符合“(说明|情况)：？$”止则表达式的文本，同时后面紧跟含有“√适用 □不适用”、“□适用 √不适用”、“情况说明(如果有多项，请分列说明)：”等的文本；

匹配符合“^$？[1a一i]$？”正则表达式，且以句号结尾的文本；

匹配以”说明：？”结尾，且下一行以”注”开头的文本。

5.根据权利要求1所述的方法，其特征在于，针对被判断为有编号底部附注的文本，进行编号模式获取的步骤包括：

匹配符合“^\(？1ai一)？[\.、：\s]”正则表达式的文本；

匹配第一个预期有编号的文字行以数字开头，数字与下一个字符之间有超过1个字符宽度的距离的文本；第一个预期有编号的文字行下方的最近的3个文字行，依次判定，存在一行有符合“^注1：”正则表达式的文本。

6.根据权利要求1所述的方法，其特征在于，根据获取到的编号模式，对目标文本后面的文本进行正则表达式匹配，寻找有编号附注结束位置的步骤包括：

通过编号模式的两个属性：编号模板，自增序列，利用正则表达式尝试匹配潜在的有编号附注起始行后的文本；

针对上述结果，若本编号对应的内容都已经结束的情况下，下一行内容的起始位置不符合编号模式，那么认为附注结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京智录信息科技有限公司，未经南京智录信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910582520.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载