[发明专利]一种文档识别的方法、设备和存储介质有效

申请号：	201910818333.8	申请日：	2019-08-30
公开（公告）号：	CN110633660B	公开（公告）日：	2022-05-31
发明（设计）人：	黄劲;梁泽龙;康阳	申请（专利权）人：	盈盛智创科技（广州）有限公司
主分类号：	G06V30/412	分类号：	G06V30/412;G06V30/19;G06V10/764
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	510000 广东省广州市黄埔区伴河路136号160***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文档识别方法设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文档识别的方法、设备和存储介质。该方法包括：接收第一文档，第一文档中具有页面；从页面提取具有目标元素的区域，目标元素包括第一表格；检测区域中的交叉点，交叉点为至少两条线段相交的位置；在区域中定位以交叉点组成的子区域，子区域用于表示第一表格中的单元格；识别位于子区域中的字符；生成与第一表格相同的第二表格；将字符写入第二表格中。通过该方法实现了通过单元格重构第一文档中的Excel表格，尤其是异形的Excel表格的有益效果。

技术领域

本发明实施例涉及文字识别技术，尤其涉及一种文档识别的方法、设备和存储介质。

背景技术

根据版式文档的生成过程，文档是数据和结构的集合，具体包括内容数据、物理结构和逻辑结构。文档分析是对文档物理结构进行抽取，而文档理解则是在物理结构和逻辑结构之间建立映射关系。在实际应用中，移动设备的可读性需求使物理和逻辑结构的恢复尤为重要。页面内表格的检测及识别是文档理解的重点之一。表格具有其独立的逻辑功能，需要对其进行物理划分和逻辑标签标定。固定版式文档中的表格对象可能由无数的文本图元和操作构成，也可能整体来自一个图像图元。

表格是文档的重要组成部分，如何准确地识别表格及其表格中的内容，对版式文档的分析尤其重要。现有技术中有一些识别并转换版式文档中表格的方法，如将PDF(Portable Document Format，便携式文档格式)文档中的表格转换成Exce1表格的方法，先识别PDF文档中的表格所含的文本块的边界位置坐标，根据文本块的边界位置坐标来对PDF文档中表格进行行划分和列划分，得到多个划分区域，确定各个文本块所属的划分区域，将划分好区域的文本块写入对应的Excel表格中。

在这样的处理方式中，要达实现较好的识别效果。需要在PDF文档中的Excel表格线条连贯，单元格的大小比较单一。这就导致了不能实现识别PDF中异形的Excel表格的目的。

发明内容

本发明提供一种文档识别的方法、设备和存储介质，以解决不能实现识别PDF中异形的Excel表格的目的的问题。

第一方面，本发明实施例提供了一种文档识别的方法，包括：

接收第一文档，所述第一文档中具有页面；

从所述页面提取具有目标元素的区域，所述目标元素包括第一表格；

检测所述区域中的交叉点，所述交叉点为至少两条线段相交的位置；

在所述区域中定位以所述交叉点组成的子区域，所述子区域用于表示所述第一表格中的单元格；

识别位于所述子区域中的字符；

生成与所述第一表格相同的第二表格；

将所述字符写入所述第二表格中。

在此基础上，所述从所述页面提取具有目标元素的区域，包括：