[发明专利]基于神经网络和注意力机制结合的文字识别系统及方法有效
申请号: | 201811230112.0 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109389091B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 杨宏志;庞宇;王慧倩 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V30/41;G06V10/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 注意力 机制 结合 文字 识别 系统 方法 | ||
本发明请求保护一种基于神经网络和注意力机制结合的文字识别系统及方法,具体包括:卷积神经网络特征提取模块,用于文字图像的空间特征;将卷积神经网络提取的空间特征输入到双向长短期记忆网络模块,双向长短期记忆网络能够提取文字的序列特征;将提取的特征向量进行语义编码,然后通过注意力机制分配特征向量的注意力权值,让注意力集中在权值较高的特征向量;模型的解码部分,通过嵌套长短期记忆网络实现,将注意力提取到的特征和前一时刻的预测信息作为嵌套长短期记忆网络的输入,前后均采用长短期记忆网络的目的是为了保持特征向量的时间特性,使模型注意位置点随着时间不断变化;本发明能够更准确的检测自然场景中的文字区域,并且对小目标文字和倾斜角度小的文本有很好的检测效果。
技术领域
本发明属于自然场景中的文字图像识别,涉及卷积神经网络、长短期记忆网络和注意力机制相结合的相关算法。
背景技术
自然场景就是我们所处的生活坏境,自然场景图像中包含了各种各样的视觉信息,如文字、汽车、风景、生物体及建筑景观等内容,这些元素信息构成了自然场景内容的主要成分。
自然场景下的数字识别属于自然场景下文本识别的范畴,对自然场景下文本识别问题的研究始于上个世纪90年代,但是直到现在仍然是一个没有解决的难题。一般来说,自然场景下的文本识别任务包含两部分:文本区域检测和文本识别。文本识别是在检测的基础上进行识别,将检测到的文本框作为识别输入。随着深度学习发展,检测作为最早研究的领域,相关技术较为成熟,因此,能够决定识别效果就是识别算法的设计,目标识别是目前深度学习领域较为活跃的领域,各种层出不穷的应用应运而生,文字作为日常常见的视觉信息,具有重要的研究意义,同时提高文字的识别准确率对于NLP领域也有很大的帮助。但由于自然场景文字位置、形变、光照等多方面因素,而且自然场景字符的背景也相当复杂,所以对识别存在诸多需要攻克的技术难点。
目前很多研究方法大都是基于自上而下的算法模型,Jaderberg等人设计了一个基于卷积神经网络和结构化的输出方法对文字进行端到端识别,但是需要固定文本的长度,对长序列的文本识别效果不好,Shi等人提出了一种基于“卷积神经网络+循环神经网络+序列分类”的端到端的识别方法,但该方法对复杂的文字图像识别效果不好。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种能够更准确的检测自然场景中的文字区域,并且对小目标文字和倾斜角度小的文本有很好的检测效果的基于神经网络和注意力机制结合的文字识别系统及方法。本发明的技术方案如下:
一种基于神经网络和注意力机制结合的文字识别系统,其包括:特征提取模块、编码和注意力模块及解码模块,其中,特征提取模块采用的是卷积神经网络和双向长短期记忆网络相结合的结构,(所述卷积神经网络用于提取文字图像的空间特征;所述双向长短期记忆网络用于提取文字的序列特征;)
编码和注意力模块,用于对双向长短期记忆网络编码阶段的隐藏状态hi进行加权求和,获取不同时刻的注意力权值,然后通过注意力聚焦对当前时刻的输出作预测;)
解码模块采用的是嵌套长短期记忆网络,解码部分是对编码生成的中间语义信息进行解析,解码需要利用注意力机制对编码的状态进行注意力聚焦,然后通过嵌套长短期记忆网络学习过去某时刻的解码信息,用于提取文本的序列信息,通过前一时刻的状态预测当前时刻的输出。
进一步的,所述卷积神经网络模块包括卷积层1、池化层1、卷积组2、卷积层3、池化层2、卷积层4、池化层3、批量标准层、卷积层5、池化层4、批量标准层、Dropout层组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811230112.0/2.html,转载请声明来源钻瓜专利网。