[发明专利]一种文档图像实例分割方法及装置在审

专利信息
申请号: 201910194679.5 申请日: 2019-03-14
公开(公告)号: CN109948510A 公开(公告)日: 2019-06-28
发明(设计)人: 朱军民;王勇;康铁刚 申请(专利权)人: 北京易道博识科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06N3/04;G06T7/11;G06T7/136
代理公司: 北京金智普华知识产权代理有限公司 11401 代理人: 巴晓艳
地址: 100083 北京市海淀区农大南路1号院2号楼7层办公A-7*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实例对象 文档图像 原始图像 分数图 版面分析 链接 像素 分割 计算机视觉领域 卷积神经网络 分割结果 区域轮廓 神经网络 文字方向 输出 图分割
【说明书】:

发明公开了一种文档图像实例分割方法及装置,属于计算机视觉领域。该方法包括:将原始图像输入到全卷积神经网络中,所述原始图像上包括n个类别的实例对象,n≧1;输出原始图像的文字方向分数图、n个实例对象分数图以及所对应的像素链接图;根据n个实例对象分数图和像素链接图分割出n个实例对象区域轮廓,并对实例对象进行描述;输出实例对象分割结果,包括实例对象的类别和位置。本发明的方法通过将多个对象实例分割集中在一个神经网络中,大大提供文档图像版面分析的速度,也大大提高了文档图像版面分析的精度。

技术领域

本发明涉及计算机视觉领域,尤其是一种文档图像实例分割方法及装置。

背景技术

在各种场景中,需要将文档进行电子化,比如文档图像分析、识别、分类、存储等都需要使用文档中的内容信息,这种识别称之为OCR技术,传统的OCR版式分析方法采用图像二值化、连通域分析、分步提取各种版式要素(表格、文字、图章)。该方法对于输入图像的要求比较高,一般是要求扫描图像,这种图像分辨率固定、背景比较单一,版式不复杂。

如果图像是手机拍摄、扫描仪拍摄等情况,基本上很难得到理想的结果,主要原因:

1.受到光照不均匀、清晰度低、拍摄角度歪斜、折痕多等;

2.图像透视变换失真、梯形失真、桶形失真、书页形失真等

3.图像分辨率不固定,不同的手机分辨率不一样。

4.ROI区域占据的区域大小不确定,不同的远近造成拍摄的图像大小不一样。

5.背景复杂不定,图像上有印章、划痕等干扰。

文档图像OCR属于计算机视觉领域的一个重要分支,跟人脸识别、语音识别并列,文档图像OCR技术也是一个古老的技术,从上个世纪60年代就开始研究的传统图像分析方法,到深度学习技术兴起并由此产生基于深度学习的图像分析方法。由于文档图像中可能存在文字、表格、图章、插图等要素,如果分别单独使用深度学习提取,将非常耗费时间。如果能够将多种文档图像要素分割统一在一个通用的神经网络中,将大大提高文档实例分割的速度,有利于节省基于深度学习的文档图像分析总的时间消耗。

如图1所示,文档图像分割的难点在于以下几点:

1.文档版式多样:需要处理的文档对象版式多,OCR之所以复杂,就是需要处理的版式太多,非常不固定,有各种证件、发票票据、银行单据、保险保单、医疗票据等等,各种文档图像没有一个是一样的,在我们的经验中文档不同没有一个版式是一样的。

2.打印方式多样:文档中给的内容有几种方式形成,有的是印刷上去的,有的是激光打印上去的,有的是针式打印机打印上去的,有的是手写上去的,还有一些是套打上去的,存在着压字、偏移等诸多影响。

3.采集设备多样:图像获取设备可以是扫描仪、高拍仪等专用设备,还有目前普遍使用的手持设备如手机、PAD、摄像机等移动设备。

4.拍摄环境复杂:由于文档图像手持设备比较多,所有图像采集环境变得多样化、复杂化,各种光照环境都有可能采集图像,包括直接在阳光下,也有可能在光照度比较低的房子里面,还有在因为光照遮挡原因,有可能在图像上形成阴影等情况。

5.分辨率不固定:由于使用摄像头为主要输入设备,使得所采集的图像没有固定的分辨率,字符、表格等要素的大小也不固定,最小的字符有可能小于16像素,最大的字符上千像素。

6.拍摄角度自由:由于人手持拍摄,各种拍摄角度就会出现,图像倾斜、抖动、透视形变、纸张的柔性变形都会出现。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易道博识科技有限公司,未经北京易道博识科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910194679.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top