[发明专利]一种面向手写文字的一阶段自动识别与翻译方法有效
申请号: | 201911046777.0 | 申请日: | 2019-10-30 |
公开(公告)号: | CN110765966B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 苏统华;周圣杰;涂志莹;王忠杰;徐晓飞 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06V40/30 | 分类号: | G06V40/30;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨龙科专利代理有限公司 23206 | 代理人: | 高媛 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 手写 文字 阶段 自动识别 翻译 方法 | ||
1.一种面向手写文字的一阶段自动识别与翻译方法,其特征在于所述方法包括如下步骤:
步骤一、文本识别
一、图片预处理
(1)图片大小缩放:
a、假设输入图片最大宽度为MaxWidth,最大高度为MaxHeight,将图片按长宽比缩放,使其宽度不大于MaxWidth且高度不大于MaxHeight;
b、假设图片宽度为Width,高度为Height,分别计算高度和宽度的缩放比:
c、比较高度和宽度的缩放比,选择较大的一个作为整个图片的缩放比,当图片本身的高度和宽度都小于最大高度和最大宽度时,不做缩放:
Rate=max(1.0,max(Rateheight,Ratewidth));
d、计算缩放过后的高度和宽度:
e、将图片缩放为(NewHeight,NewWidth)大小;
(2)像素值归一化:
将原始像素值缩放到[0,1]区间,并且将白色背景变为黑色;
二、标签预处理
将标签字符串转换成整数序列;
三、训练模型
(1)训练模型由卷积神经网络和序列到序列模型构成,计算方法为多头注意力机制,所述多头注意力机制的公式为:
MultiheadAttention(Q,K,V)=Concat(head1,...,headn)WO;
headi=Attention(QWiQ,KWiK,VWiV);
式中:Q代表查询序列,K是键序列,V是值序列,dk是Q和K中每个向量的维度,WiQ,WiK,WiV分别是第i个head对原始Q、K、V序列的线性变换矩阵,WO是将所有head拼接后做线性变换的矩阵;
(2)利用掩码对查询序列、键序列和注意力矩阵做屏蔽操作;
四、预测
(1)将原始图片进行缩放、做像素值归一化;
(2)把图片输入到训练模型,做一次前向传播,获得神经网络的输出结果,若模型是CANN模型,输出值为对每一帧的预测,若模型是CNN-Transformer模型,以自回归的方式预测识别结果;
所述CANN模型由一个卷积神经网络和若干层自注意力机制加全连接层组成,其中,卷积神经网络用于提取图片的空间特征,自注意力层用于提取序列特征,每个自注意力层后面跟了一个全连接层,用于整合多个头的特征;
步骤二、端到端识别与翻译
一、预训练
(1)按照步骤一中的方法训练一个文本识别模型,根据步骤一的三中所述,文本识别模型拆分成一个卷积神经网络和一个序列到序列模型;
(2)使用Transformer网络训练一个机器翻译模型,将机器翻译模型拆分为编码器和解码器;
(3)对注意力矩阵做softmax激活,如果是注意力矩阵左乘值序列,softmax对注意力矩阵的每一行做激活,如果是注意力矩阵右乘值序列,softmax对注意力矩阵的每一列做激活;
(4)把注意力矩阵和值序列做矩阵乘法,得到多头注意力层的输出值,输出值形状为[h*N,T,C/h],将其恢复成[N,T,C]形状的张量,其中N表示Batch size,T表示序列长度,C表示向量维数,h表示多头注意力层头的个数;
二、重组网络结构
在训练好的卷积神经网络和解码器中间插入一个序列到序列模型,得到重组后的网络结构;
三、调优
在端到端识别与翻译数据集上训练二、重组网络结构中所述的重组后的网络结构;
四、预测
将待识别与翻译的图片输入到训练好的网络模型中,做一次前向传播,将输出序列解码即可得到译文。
2.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法,其特征在于所述像素值归一化的计算公式为:
其中,p为图片中的任意像素值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911046777.0/1.html,转载请声明来源钻瓜专利网。