[发明专利]基于深度学习的文档自动归类及光学字符识别方法及系统在审
申请号: | 201911025558.4 | 申请日: | 2019-10-25 |
公开(公告)号: | CN111079511A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 张晓东;张力飞;陈关州;朱坤;廖溥昀;谭效良;王铜 | 申请(专利权)人: | 湖北富瑞尔科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 易滨 |
地址: | 430000 湖北省武汉市东湖开发区武大园*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 文档 自动 归类 光学 字符 识别 方法 系统 | ||
本发明提供了一种基于深度学习的文档自动归类及光学字符识别方法及系统,其方法包括:首先对待扫描的文档进行扫描,得到扫描图片,并对所述扫描图片进行预处理,得到预处理后的扫描图片;然后采用卷积神经网络对所述预处理后的扫描图片进行特征提取和分类,得到所述扫描图片的图片特征,并根据所述图片特征对所述扫描图片进行分类,以实现待扫描文档的自动归类;最后利用OCR引擎对所述扫描图片中的关键信息进行提取,以实现扫描图片的光学字符识别。本发明的有益效果是:利用卷积神经网络结合光学字符识别技术,实现扫描文档图片分类整理以及文件夹命名自动化、智能化处理的工作。
技术领域
本发明涉及扫描文档图片信息处理、信息提取及图片模式识别技术领域,尤其涉及一种基于深度学习的文档自动归类及光学字符识别方法及系统。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术;而扫描文档图片是利用电子扫描技术对文档进行扫描成像,获得文档的扫描图片。扫描文档图片较为色彩单调,一般是白纸黑字形式。因此在生产生活中为了对文档进行快速的存储备份,一般会进行电子扫描存档。
对于扫描的文档图片一般需要进行归档分类整理,现在采用的方法多是利用人工识别分类整理。人工识别整理的方法不仅费时费力,同时效率较低。无法满足生产生活的需求。
近年来,在人工智能(AI)领域兴起的深度学习算法,是一种全新的计算模型,能够对海量数据提取高级特征,进行高效的信息分类、解译和理解。深度学习算法已成功应用于计算机视觉、机器翻译、语音识别、AI强化学习等领域,甚至在某些应用中表现已经超过人类水平。深度学习方法包含多种学习模型,其中卷积神经网络(CNN)在图像处理应用中表现最为出色[1-2]。卷积神经网络由输入层、卷积层、池化层、全连接层和输出层组成,通过对多层卷积核(特征提取器)的训练,实现影像解译功能。利用卷积神经网络能够学习到更加抽象、稳定的特征,这些高级特征对噪声及影像局部变化具有低敏感性,如果使用这些高层次特征进行分类任务,有助于提高分类精度。此外,与基于提取人工规则特征的分类方法相比,卷积神经网络将卷积层和全连接层相结合,能够同时实现影像对象的特征提取和分类,减少了人工干预过程,提高网络模型的识别能力。但目前主要将深度学习的方法应用到自然影像或遥感影像的分类任务中,还没有将深度学习的技术应用于扫描文档图片分类的应用。
发明内容
为了解决上述问题,本发明提供了一种基于深度学习的文档自动归类及光学字符识别方法及系统;
一种基于深度学习的文档自动归类及光学字符识别方法,主要包括以下步骤:
S101:对待扫描的文档进行扫描,得到扫描图片,并对所述扫描图片进行预处理,得到预处理后的扫描图片;
S102:采用卷积神经网络对所述预处理后的扫描图片进行特征提取和分类,得到所述扫描图片的图片特征,并根据所述图片特征对所述扫描图片进行分类,以实现待扫描文档的自动归类;
S103:利用OCR引擎对所述扫描图片中的关键信息进行提取,以实现扫描图片的光学字符识别。
进一步地,步骤S101中,对所述扫描图片进行预处理,具体为:将所述扫描图片缩放至预设尺寸大小,以便于后续使用。
进一步地,步骤S102中,所述卷积神经网络为Resnet18,采用监督学习的方法,利用随机梯度下降优化器事先在ImageNet上预训练权重。
进一步地,采用Mxnet框架实现卷积神经网络的搭建和监督学习,损失函数采用的是交叉熵损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北富瑞尔科技有限公司,未经湖北富瑞尔科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911025558.4/2.html,转载请声明来源钻瓜专利网。