[发明专利]文档图像中的表格底部有编号附注识别技术在审
申请号: | 201910582520.0 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110399801A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 徐茂龙;杨鸿健;程晨 | 申请(专利权)人: | 南京智录信息科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配结果 页面元素 文档图像 文本内容预处理 正则表达式 编号模式 表格解析 判断标准 文本内容 相关信息 页眉页脚 页面文本 纯文本 起始行 潜在的 文本行 无边框 遍历 页面 匹配 文本 | ||
1.一种文档图像中的表格底部有编号附注识别方法,其特征在于,包括以下步骤:
利用预先获取到页面信息,去除页面中的页眉页脚元素;
获取表格结束后的第一个页面元素;
对上述页面元素进行纯文本判断,根据判断结果决定是否需要判断后面的页面元素;
针对上述获取到的纯文本内容,进行必要的预处理;
针对上述预处理后的文本进行多种正则表达式匹配;
根据上述匹配结果,判断目标文本是否为有编号附注起始行或无编号附注,寻找潜在的有编号附注起始行;
针对被判断为有编号底部附注的文本,进行编号模式获取;
根据获取到的编号模式,对目标文本后面的文本进行正则表达式匹配,寻找有编号附注结束位置。
2.根据权利要求1所述的方法,其特征在于,获取表格结束后的第一个页面元素的步骤包括:
从页面底部开始,对页面内的元素进行遍历,并进行判断;
若上述过程未在当前页面找到目标页面元素,则在下一页从页面顶部开始遍历寻找。
3.根据权利要求1所述的方法,其特征在于,针对上述获取到的纯文本内容,进行必要的预处理的步骤包括:
将文本中的所有中文符号替换为英文符号;
将编号类的特殊字符替换为普通字符的组合;
去除文本两端的多余空格。
4.根据权利要求1所述的方法,其特征在于,针对上述预处理后的文本进行多种正则表达式匹配的步骤包括:
匹配单独一行,且以冒号结尾的文本;
匹配符合“^附?注释?\(?[1ai一]\)?[:、]?”正则表达式的文本;
匹配符合“(说明|情况):?$”止则表达式的文本,同时后面紧跟含有“√适用 □不适用”、“□适用 √不适用”、“情况说明(如果有多项,请分列说明):”等的文本;
匹配符合“^\(?[1a一i]\)?”正则表达式,且以句号结尾的文本;
匹配以”说明:?”结尾,且下一行以”注”开头的文本。
5.根据权利要求1所述的方法,其特征在于,针对被判断为有编号底部附注的文本,进行编号模式获取的步骤包括:
匹配符合“^\(?1ai一)?[\.、 :\s]”正则表达式的文本;
匹配第一个预期有编号的文字行以数字开头,数字与下一个字符之间有超过1个字符宽度的距离的文本;第一个预期有编号的文字行下方的最近的3个文字行,依次判定,存在一行有符合“^注1:”正则表达式的文本。
6.根据权利要求1所述的方法,其特征在于,根据获取到的编号模式,对目标文本后面的文本进行正则表达式匹配,寻找有编号附注结束位置的步骤包括:
通过编号模式的两个属性:编号模板,自增序列,利用正则表达式尝试匹配潜在的有编号附注起始行后的文本;
针对上述结果,若本编号对应的内容都已经结束的情况下,下一行内容的起始位置不符合编号模式,那么认为附注结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京智录信息科技有限公司,未经南京智录信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910582520.0/1.html,转载请声明来源钻瓜专利网。