[发明专利]使用神经网络进行端到端手写文本识别的系统和方法有效
申请号: | 201910654750.3 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110738090B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | A·乔杜里;L·维格 | 申请(专利权)人: | 塔塔咨询服务公司 |
主分类号: | G06V30/22 | 分类号: | G06V30/22;G06V30/19;G06V10/82;G06N3/0464;G06N3/044;G06N3/0455;G06N3/049 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 石海霞;王晓璐 |
地址: | 印度马哈*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 神经网络 进行 端到端 手写 文本 识别 系统 方法 | ||
1.一种用于使用神经网络进行端到端手写文本识别的系统(100),所述系统包括:
一个或多个内部数据存储设备(102),可操作地耦接到一个或多个硬件处理器(104),用于存储被配置为由一个或多个硬件处理器执行的指令,所述指令被包括在以下之中:
图像预处理模块(102A),被配置为:
接收扫描的手写文本输入图像;
从扫描的手写文本输入图像获取一个或多个子图像,其中一个或多个子图像中的每一个包括扫描的手写文本输入图像中存在的一行手写文本;以及
将一个或多个子图像缩放成具有固定高度和可变宽度并保持其纵横比的一个或多个缩放子图像;
特征提取模块(102B),可操作地耦接到图像预处理模块(102A)并且被配置为通过应用卷积神经网络CNN将一个或多个缩放子图像中的每一个变换为一个或多个特征映射,其中一个或多个特征映射包含相应子图像的视觉特征;
映射到序列模块(102C),可操作地耦接到特征提取模块(102B)并且被配置为通过在深度方向分离包括在一个或多个特征映射中的列,并且连接相应子图像的一个或多个特征映射的各个列,将一个或多个特征映射转换为特征向量序列;
序列学习模块(102D),可操作地耦接到映射到序列模块(102C)并且被配置为通过使用基于递归神经网络RNN的编码器单元和解码器单元,通过映射与每个特征向量序列相关联的视觉特征来生成一组或多组字符,其中一组或多组字符是为对应的子图像识别的机器可读文本,并且其中基于RNN的编码器单元和解码器单元的编码器单元被配置为针对每个特征向量序列生成上下文向量,并且基于RNN的编码器单元和解码器单元的解码器单元被配置为针对每个特征向量序列在上下文向量上应用条件概率分布,以生成用于对应子图像的一组字符;以及
图像后处理模块(102E),可操作地耦接到序列学习模块(102D)并且被配置为组合每个相应子图像的字符组以生成手写文本输出文件,其中手写文本输出文件是扫描的手写文本输入图像的识别出的文本版本。
2.如权利要求1所述的系统,其中所述图像预处理模块还被配置为:
采用小批量训练技术,以通过在左侧和右侧上用相应的背景像素填充包含在批次中的一个或多个子图像以匹配批次中最宽子图像的宽度,来保持尺寸的均匀性;以及
将随机失真引入一个或多个子图像以生成一个或多个子图像中的变化。
3.如权利要求1所述的系统,其中所述CNN包括连续地堆叠有带泄露线性整流函数激活的七个卷积层,其中通过执行以下操作来配置所述卷积层的带泄露线性整流函数激活:
批量归一化以防止内部协变量移位并在传播到下一个卷积层之前加速训练;以及
执行池化操作机制以执行至少一些卷积层的激活,以减少一个或多个子图像的维度。
4.如权利要求1所述的系统,其中所述编码器单元是通过组合两个长短期记忆LSTM单元形成的双向网络,并且所述解码器单元是具有单个LSTM单元的单向网络。
5.如权利要求4所述的系统,其中所述编码器单元和所述解码器单元包括两个循环层,每个LSTM单元中具有256个隐藏单元。
6.如权利要求1所述的系统,其中基于RNN的编码器单元和解码器单元由以下配置:
通过剩余连接,通过其中包含的循环单元促进梯度流向随后的循环层;
通过沿深度方向连接使用丢弃机制来规范编码器单元,而不修改循环连接以捕获长期依赖性;
通过层标准化激活细胞神经元以防止由于小批量训练导致的协变量偏移;以及
通过注意机制将解码器单元的隐状态与编码器单元的隐状态对准。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔塔咨询服务公司,未经塔塔咨询服务公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910654750.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像识别装置
- 下一篇:一种电梯乘坐指引方法及计算机可读存储介质