[发明专利]一种文档图像实例分割方法及装置在审
申请号: | 201910194679.5 | 申请日: | 2019-03-14 |
公开(公告)号: | CN109948510A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 朱军民;王勇;康铁刚 | 申请(专利权)人: | 北京易道博识科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06T7/11;G06T7/136 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 100083 北京市海淀区农大南路1号院2号楼7层办公A-7*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实例对象 文档图像 原始图像 分数图 版面分析 链接 像素 分割 计算机视觉领域 卷积神经网络 分割结果 区域轮廓 神经网络 文字方向 输出 图分割 | ||
本发明公开了一种文档图像实例分割方法及装置,属于计算机视觉领域。该方法包括:将原始图像输入到全卷积神经网络中,所述原始图像上包括n个类别的实例对象,n≧1;输出原始图像的文字方向分数图、n个实例对象分数图以及所对应的像素链接图;根据n个实例对象分数图和像素链接图分割出n个实例对象区域轮廓,并对实例对象进行描述;输出实例对象分割结果,包括实例对象的类别和位置。本发明的方法通过将多个对象实例分割集中在一个神经网络中,大大提供文档图像版面分析的速度,也大大提高了文档图像版面分析的精度。
技术领域
本发明涉及计算机视觉领域,尤其是一种文档图像实例分割方法及装置。
背景技术
在各种场景中,需要将文档进行电子化,比如文档图像分析、识别、分类、存储等都需要使用文档中的内容信息,这种识别称之为OCR技术,传统的OCR版式分析方法采用图像二值化、连通域分析、分步提取各种版式要素(表格、文字、图章)。该方法对于输入图像的要求比较高,一般是要求扫描图像,这种图像分辨率固定、背景比较单一,版式不复杂。
如果图像是手机拍摄、扫描仪拍摄等情况,基本上很难得到理想的结果,主要原因:
1.受到光照不均匀、清晰度低、拍摄角度歪斜、折痕多等;
2.图像透视变换失真、梯形失真、桶形失真、书页形失真等
3.图像分辨率不固定,不同的手机分辨率不一样。
4.ROI区域占据的区域大小不确定,不同的远近造成拍摄的图像大小不一样。
5.背景复杂不定,图像上有印章、划痕等干扰。
文档图像OCR属于计算机视觉领域的一个重要分支,跟人脸识别、语音识别并列,文档图像OCR技术也是一个古老的技术,从上个世纪60年代就开始研究的传统图像分析方法,到深度学习技术兴起并由此产生基于深度学习的图像分析方法。由于文档图像中可能存在文字、表格、图章、插图等要素,如果分别单独使用深度学习提取,将非常耗费时间。如果能够将多种文档图像要素分割统一在一个通用的神经网络中,将大大提高文档实例分割的速度,有利于节省基于深度学习的文档图像分析总的时间消耗。
如图1所示,文档图像分割的难点在于以下几点:
1.文档版式多样:需要处理的文档对象版式多,OCR之所以复杂,就是需要处理的版式太多,非常不固定,有各种证件、发票票据、银行单据、保险保单、医疗票据等等,各种文档图像没有一个是一样的,在我们的经验中文档不同没有一个版式是一样的。
2.打印方式多样:文档中给的内容有几种方式形成,有的是印刷上去的,有的是激光打印上去的,有的是针式打印机打印上去的,有的是手写上去的,还有一些是套打上去的,存在着压字、偏移等诸多影响。
3.采集设备多样:图像获取设备可以是扫描仪、高拍仪等专用设备,还有目前普遍使用的手持设备如手机、PAD、摄像机等移动设备。
4.拍摄环境复杂:由于文档图像手持设备比较多,所有图像采集环境变得多样化、复杂化,各种光照环境都有可能采集图像,包括直接在阳光下,也有可能在光照度比较低的房子里面,还有在因为光照遮挡原因,有可能在图像上形成阴影等情况。
5.分辨率不固定:由于使用摄像头为主要输入设备,使得所采集的图像没有固定的分辨率,字符、表格等要素的大小也不固定,最小的字符有可能小于16像素,最大的字符上千像素。
6.拍摄角度自由:由于人手持拍摄,各种拍摄角度就会出现,图像倾斜、抖动、透视形变、纸张的柔性变形都会出现。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易道博识科技有限公司,未经北京易道博识科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910194679.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面部识别方法及装置
- 下一篇:手势识别方法及装置