[发明专利]基于深度学习注意力机制的文本实时定位识别方法有效
申请号: | 201910785745.6 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110569832B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 汪从玲 | 申请(专利权)人: | 安徽省科亿信息科技有限公司 |
主分类号: | G06V30/16 | 分类号: | G06V30/16;G06V10/22;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 合肥市上嘉专利代理事务所(普通合伙) 34125 | 代理人: | 李璐;郭华俊 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 注意力 机制 文本 实时 定位 识别 方法 | ||
本发明公开了一种基于深度学习注意力机制的文本实时定位识别方法,包括以下步骤:搭建文本图像采集系统,收集训练样本并进行人工标注,建立OCR数据集,根据OCR数据集的特点,先对图像进行预处理,然后提出深度显著性注意力网络来定位文本区域,将文本与复杂背景区分开。最后利用深度卷积循环注意力来识别文本,实现对文本图像的实时检测识别。本发明无需对字符进行切分,能够有效地提高OCR系统检测识别的精度,并有具有良好的实时性和迁移性,具有广阔的应用前景。
技术领域
本发明涉及文字识别技术领域,特别是涉及一种基于深度学习注意力机制的文本实时定位识别方法。
背景技术
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。
现有技术一般包含四个步骤:图像预处理,文字区域检测,字符切割,字符识别。
下面分别具体描述:
(1)图像的预处理:图像预处理部分主要包括二值化、图像降噪、倾斜矫正等等。图像预处理是识别过程的先行步骤,是为了提升后续处理单元的处理效率和准确率。图像预处理的步骤并不是严格按照流程固定不变的,不同的识别需求需要根据实验效果做出步骤的调整。一般来说,对于识别扫描的PDF、WORD文件所需的预处理步骤则要简单的多,而类似于车牌识别这类环境复杂的图像,则需要很繁琐的步骤;
(2)字符区域检测:图像预处理操作进行之后,一般情况下就要开始检测图像中的文字区域。传统的文字区域检测方法一般是通过找轮廓或者投影的方式找到文本行,但是此种方法需设定繁琐的规则且鲁棒性不好;
(3)字符切割:传统方法一般先对文本行进行字符切割,然后对切割后的字体进行识别。而字符切割算法比较常见的是垂直投影法,但字符切割算法受到字符间隙的影响,如果两个字符存在粘连情况,字符切割的有效性将大大降低;
(4)字符识别:字符识别是OCR整个流程中的最后一步,也是举足轻重的一步,这一部分模块的识别正确率决定了整个OCR系统可用与否。现有技术一般将字符识别问题转换为分类问题,通过SVM或者卷积神经网络来解决。
因而现有技术中OCR识别具有在复杂背景下定位文本区域困难、字符切分鲁棒性差、识别准确率低的问题,因此亟需提供一种新型的文本识别方法来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习注意力机制的文本实时定位识别方法,无需切分字符,能够有效地提高OCR系统检测识别的精度。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于深度学习注意力机制的文本实时定位识别方法,包括以下步骤:
S1:搭建文本图像采集系统,收集训练样本并进行人工标注,建立OCR数据集;
S2:基于深度学习的方法,根据OCR数据集的特点,建立深度显著性注意力网络与深度卷积循环注意力模型;
S3:对所述OCR数据集进行预处理,利用预处理后的数据集训练所述深度显著性注意力网络,得到能够精确定位文本区域的深度显著性注意力网络;
S4:利用所述深度显著性注意力网络获取图片文本区域的热力图,将热力图与原图相乘,得到显著图;
S5:利用所述显著图训练所述深度卷积循环注意力模型,得到能够精确识别文本的深度卷积循环注意力模型,并对文本图像进行预测,从而实现对文本图像的实时定位识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽省科亿信息科技有限公司,未经安徽省科亿信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910785745.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力设备铭牌的特征匹配方法及系统
- 下一篇:车牌定位方法