[发明专利]基于多字典样本加权的文本识别方法在审

申请号：	202111458126.X	申请日：	2021-12-01
公开（公告）号：	CN114120321A	公开（公告）日：	2022-03-01
发明（设计）人：	王铎;陈坤;张欣;郭宏泰;孙阳;杨延平;张磊;李磊;时孟旭	申请（专利权）人：	北京比特易湃信息技术有限公司
主分类号：	G06V30/10	分类号：	G06V30/10;G06V30/18;G06V30/19;G06V10/772;G06V10/82;G06F40/216;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京棘龙知识产权代理有限公司 11740	代理人：	李改平
地址：	100044 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多字样本加权文本识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多字典样本加权的文本识别方法，其特征在于：所述基于多字典样本加权的文本识别方法包括如下步骤：

(1)预处理和数据增强

模型的输入为文本行图像，在对图像解码后，进行通道变换和转置预处理，按照一定的随机比例进行多种数据增强操作，以此来增加样本的多样性，提高模型的识别能力；

对图像进行指定大小的缩放操作，设置为(H,W,3)，根据文本行图像的大小，对其进行不同的resize操作，最后得到固定高度为H的可训练图像数据；

(2)特征提取

本专利的模型主干网为图像分类预训练模型resnet-50，网络neck层为双层双向RNN模型，输入图像在预处理阶段中按固定高度进行resize操作后，输入CNN网络中进行空间特征提取，得到大小为(1,W/4,C1)的特征，RNN网络接收上一步的结果作为输入，来对时序数据建模，以进行时序特征提取，最后输出大小为(W/4,C1)的特征；

(3)多头分支

多头分支中包含与字典数量一致的分支头，每个分支头对应一个字典集合，所有分支的特征提取网络层均为单层的全连接层，输入通道数为C1，输出通道数为该字典中字的数量D，将上一步提取得到的特征分别输入到每个分支头中，得到每个字典对应的前概率矩阵V，其中V的大小为(W/4,D)，在得到每个分支输出的前概率矩阵后，沿着最后一个维度，也即是字典数量的维度进行拼接，得到一个汇总的结果，即为多头分支的输出结果V’；

(4)随机Mask

在得到多头分支的输出结果V’后，沿着第一维进行随机Mask操作，首先根据V’的形状生成一个大小与V’相同的二值矩阵B，该矩阵中为0的行的位置是随机的，且行数比例值为r，即为0的行的行数row＝W/4*r；

将V’与二值矩阵B进行点乘之后得到新的前概率矩阵V”，也即对B中0在V’中对应的位置进行了抑制，1对应的位置进行保留，在对V’进行随机Mask操作之后，将结果V”送入Softmax算子中，沿着最后一维即字典字数对应的维度进行Softmax操作，得到后验概率矩阵P；

(5)损失加权

通过增量数据集中的每个字出现的频次做统计，可以得到一个频次分布映射表Mapping，该步骤是在训练之前进行，在训练时加载该映射表，直接根据映射表计算出每个字word对应的权重Weight；

在训练阶段，将增量数据对应的分支的概率矩阵V的每一列(与字典中字的数量对应)与其对应的权重进行点乘操作，用来均衡模型因样本量不均衡而对样本量少的字的偏见，该阶段最后输出矩阵P’，即为预测的后验概率矩阵；

(6)模型更新

选择模型更新的优化器，通过设置每一步的学习率来控制参数更新的幅度，将后验概率矩阵送入CTC模块中计算损失值p(y|x)，并根据该值求得新的分支中所有参数的梯度值，使用求解器进行模型的更新，在模型更新迭代一定次数后，即可将模型定义和参数保存为文件，用于后续的推理过程中。

2.根据权利要求1所述的基于多字典样本加权的文本识别方法，其特征在于：所述步骤(1)中多种数据增强操作包括拉伸、透视变换、畸变、随机裁剪、高斯模糊、随机抖动等。

3.根据权利要求1所述的基于多字典样本加权的文本识别方法，其特征在于：所述步骤(1)中图像进行缩放操作，当文本行图像保持宽高比例将高度缩放至H时，若图像宽度小于W，则在其后填充0以使其宽度达到W；若图像宽度大于W，则进行非等比例缩放，将图像直接resize为目标大小。

4.根据权利要求1所述的基于多字典样本加权的文本识别方法，其特征在于：所述步骤(2)中特征第一维的大小为1，以便将该维度去掉并送入后续RNN网络中。

5.根据权利要求1所述的基于多字典样本加权的文本识别方法，其特征在于：所述步骤(3)中在新的增量数据需要进行训练时，可以加载并利用已有的预训练模型参数进行微调，只需要训练增量数据对应的分支头网络的参数即可，只需要少量的数据即可以达到一个较好的效果，并且极大的降低了训练时间。

6.根据权利要求1所述的基于多字典样本加权的文本识别方法，其特征在于：所述步骤(4)中若行数其不为整数，通常进行向下取整。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京比特易湃信息技术有限公司，未经北京比特易湃信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111458126.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种平移透镜式调焦防水目镜
下一篇：一种智慧校园素质教育评估系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多字典样本加权的文本识别方法在审

专利文献下载