[发明专利]使用神经网络进行端到端手写文本识别的系统和方法有效
申请号: | 201910654750.3 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110738090B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | A·乔杜里;L·维格 | 申请(专利权)人: | 塔塔咨询服务公司 |
主分类号: | G06V30/22 | 分类号: | G06V30/22;G06V30/19;G06V10/82;G06N3/0464;G06N3/044;G06N3/0455;G06N3/049 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 石海霞;王晓璐 |
地址: | 印度马哈*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开提供了使用神经网络进行端到端手写文本识别的系统和方法。大多数现有的混合架构涉及高存储消耗和大量计算,以将离线手写文本转换成具有各自转换精度变化的机器可读文本。该方法将深度卷积神经网络(CNN)与基于RNN(递归神经网络)的编码器单元和解码器单元组合,以将手写文本图像映射到与扫描的手写文本输入图像中存在的文本相对应的字符序列。深度CNN用于从手写文本图像中提取特征,而基于RNN的编码器单元和解码器单元用于生成转换后的文本作为一组字符。与现有的混合架构相比,所公开的方法需要更少的存储消耗和更少的计算,并且具有更好的转换精度。 | ||
搜索关键词: | 使用 神经网络 进行 端到端 手写 文本 识别 系统 方法 | ||
【主权项】:
1.一种用于使用神经网络进行端到端手写文本识别的系统(100),所述系统包括:/n一个或多个内部数据存储设备(102),可操作地耦接到一个或多个硬件处理器(104),用于存储被配置为由一个或多个硬件处理器执行的指令,所述指令被包括在以下之中:/n图像预处理模块(102A),被配置为:/n接收扫描的手写文本输入图像;/n从扫描的手写文本输入图像获取一个或多个子图像,其中一个或多个子图像中的每一个包括扫描的手写文本输入图像中存在的一行手写文本;以及/n将一个或多个子图像缩放成具有固定高度和可变宽度并保持其纵横比的一个或多个缩放子图像;/n特征提取模块(102B),可操作地耦接到图像预处理模块(102A)并且被配置为通过应用卷积神经网络CNN将一个或多个缩放子图像中的每一个变换为一个或多个特征映射,其中一个或多个特征映射包含相应子图像的视觉特征;/n映射到序列模块(102C),可操作地耦接到特征提取模块(102B)并且被配置为通过在深度方向分离包括在一个或多个特征映射中的列,并且连接相应子图像的一个或多个特征映射的各个列,将一个或多个特征映射转换为特征向量序列;/n序列学习模块(102D),可操作地耦接到映射到序列模块(102C)并且被配置为通过使用基于递归神经网络RNN的编码器单元和解码器单元,通过映射与每个特征向量序列相关联的视觉特征来生成一组或多组字符,其中一组或多组字符是为对应的子图像识别的机器可读文本,并且其中基于RNN的编码器单元和解码器单元的编码器单元被配置为针对每个特征向量序列生成上下文向量,并且基于RNN的编码器单元和解码器单元的解码器单元被配置为针对每个特征向量序列在上下文向量上应用条件概率分布,以生成用于对应子图像的一组字符;以及/n图像后处理模块(102E),可操作地耦接到序列学习模块(102D)并且被配置为组合每个相应子图像的字符组以生成手写文本输出文件,其中手写文本输出文件是扫描的手写文本输入图像的识别出的文本版本。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔塔咨询服务公司,未经塔塔咨询服务公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910654750.3/,转载请声明来源钻瓜专利网。
- 上一篇:图像识别装置
- 下一篇:一种电梯乘坐指引方法及计算机可读存储介质