[发明专利]一种面向手写文字的一阶段自动识别与翻译方法有效

专利信息
申请号: 201911046777.0 申请日: 2019-10-30
公开(公告)号: CN110765966B 公开(公告)日: 2022-03-25
发明(设计)人: 苏统华;周圣杰;涂志莹;王忠杰;徐晓飞 申请(专利权)人: 哈尔滨工业大学
主分类号: G06V40/30 分类号: G06V40/30;G06V10/82;G06N3/04;G06N3/08
代理公司: 哈尔滨龙科专利代理有限公司 23206 代理人: 高媛
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 手写 文字 阶段 自动识别 翻译 方法
【权利要求书】:

1.一种面向手写文字的一阶段自动识别与翻译方法,其特征在于所述方法包括如下步骤:

步骤一、文本识别

一、图片预处理

(1)图片大小缩放:

a、假设输入图片最大宽度为MaxWidth,最大高度为MaxHeight,将图片按长宽比缩放,使其宽度不大于MaxWidth且高度不大于MaxHeight;

b、假设图片宽度为Width,高度为Height,分别计算高度和宽度的缩放比:

c、比较高度和宽度的缩放比,选择较大的一个作为整个图片的缩放比,当图片本身的高度和宽度都小于最大高度和最大宽度时,不做缩放:

Rate=max(1.0,max(Rateheight,Ratewidth));

d、计算缩放过后的高度和宽度:

e、将图片缩放为(NewHeight,NewWidth)大小;

(2)像素值归一化:

将原始像素值缩放到[0,1]区间,并且将白色背景变为黑色;

二、标签预处理

将标签字符串转换成整数序列;

三、训练模型

(1)训练模型由卷积神经网络和序列到序列模型构成,计算方法为多头注意力机制,所述多头注意力机制的公式为:

MultiheadAttention(Q,K,V)=Concat(head1,...,headn)WO

headi=Attention(QWiQ,KWiK,VWiV);

式中:Q代表查询序列,K是键序列,V是值序列,dk是Q和K中每个向量的维度,WiQ,WiK,WiV分别是第i个head对原始Q、K、V序列的线性变换矩阵,WO是将所有head拼接后做线性变换的矩阵;

(2)利用掩码对查询序列、键序列和注意力矩阵做屏蔽操作;

四、预测

(1)将原始图片进行缩放、做像素值归一化;

(2)把图片输入到训练模型,做一次前向传播,获得神经网络的输出结果,若模型是CANN模型,输出值为对每一帧的预测,若模型是CNN-Transformer模型,以自回归的方式预测识别结果;

所述CANN模型由一个卷积神经网络和若干层自注意力机制加全连接层组成,其中,卷积神经网络用于提取图片的空间特征,自注意力层用于提取序列特征,每个自注意力层后面跟了一个全连接层,用于整合多个头的特征;

步骤二、端到端识别与翻译

一、预训练

(1)按照步骤一中的方法训练一个文本识别模型,根据步骤一的三中所述,文本识别模型拆分成一个卷积神经网络和一个序列到序列模型;

(2)使用Transformer网络训练一个机器翻译模型,将机器翻译模型拆分为编码器和解码器;

(3)对注意力矩阵做softmax激活,如果是注意力矩阵左乘值序列,softmax对注意力矩阵的每一行做激活,如果是注意力矩阵右乘值序列,softmax对注意力矩阵的每一列做激活;

(4)把注意力矩阵和值序列做矩阵乘法,得到多头注意力层的输出值,输出值形状为[h*N,T,C/h],将其恢复成[N,T,C]形状的张量,其中N表示Batch size,T表示序列长度,C表示向量维数,h表示多头注意力层头的个数;

二、重组网络结构

在训练好的卷积神经网络和解码器中间插入一个序列到序列模型,得到重组后的网络结构;

三、调优

在端到端识别与翻译数据集上训练二、重组网络结构中所述的重组后的网络结构;

四、预测

将待识别与翻译的图片输入到训练好的网络模型中,做一次前向传播,将输出序列解码即可得到译文。

2.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法,其特征在于所述像素值归一化的计算公式为:

其中,p为图片中的任意像素值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911046777.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top