[发明专利]基于多字典样本加权的文本识别方法在审
申请号: | 202111458126.X | 申请日: | 2021-12-01 |
公开(公告)号: | CN114120321A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 王铎;陈坤;张欣;郭宏泰;孙阳;杨延平;张磊;李磊;时孟旭 | 申请(专利权)人: | 北京比特易湃信息技术有限公司 |
主分类号: | G06V30/10 | 分类号: | G06V30/10;G06V30/18;G06V30/19;G06V10/772;G06V10/82;G06F40/216;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京棘龙知识产权代理有限公司 11740 | 代理人: | 李改平 |
地址: | 100044 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多字 样本 加权 文本 识别 方法 | ||
1.基于多字典样本加权的文本识别方法,其特征在于:所述基于多字典样本加权的文本识别方法包括如下步骤:
(1)预处理和数据增强
模型的输入为文本行图像,在对图像解码后,进行通道变换和转置预处理,按照一定的随机比例进行多种数据增强操作,以此来增加样本的多样性,提高模型的识别能力;
对图像进行指定大小的缩放操作,设置为(H,W,3),根据文本行图像的大小,对其进行不同的resize操作,最后得到固定高度为H的可训练图像数据;
(2)特征提取
本专利的模型主干网为图像分类预训练模型resnet-50,网络neck层为双层双向RNN模型,输入图像在预处理阶段中按固定高度进行resize操作后,输入CNN网络中进行空间特征提取,得到大小为(1,W/4,C1)的特征,RNN网络接收上一步的结果作为输入,来对时序数据建模,以进行时序特征提取,最后输出大小为(W/4,C1)的特征;
(3)多头分支
多头分支中包含与字典数量一致的分支头,每个分支头对应一个字典集合,所有分支的特征提取网络层均为单层的全连接层,输入通道数为C1,输出通道数为该字典中字的数量D,将上一步提取得到的特征分别输入到每个分支头中,得到每个字典对应的前概率矩阵V,其中V的大小为(W/4,D),在得到每个分支输出的前概率矩阵后,沿着最后一个维度,也即是字典数量的维度进行拼接,得到一个汇总的结果,即为多头分支的输出结果V’;
(4)随机Mask
在得到多头分支的输出结果V’后,沿着第一维进行随机Mask操作,首先根据V’的形状生成一个大小与V’相同的二值矩阵B,该矩阵中为0的行的位置是随机的,且行数比例值为r,即为0的行的行数row=W/4*r;
将V’与二值矩阵B进行点乘之后得到新的前概率矩阵V”,也即对B中0在V’中对应的位置进行了抑制,1对应的位置进行保留,在对V’进行随机Mask操作之后,将结果V”送入Softmax算子中,沿着最后一维即字典字数对应的维度进行Softmax操作,得到后验概率矩阵P;
(5)损失加权
通过增量数据集中的每个字出现的频次做统计,可以得到一个频次分布映射表Mapping,该步骤是在训练之前进行,在训练时加载该映射表,直接根据映射表计算出每个字word对应的权重Weight;
在训练阶段,将增量数据对应的分支的概率矩阵V的每一列(与字典中字的数量对应)与其对应的权重进行点乘操作,用来均衡模型因样本量不均衡而对样本量少的字的偏见,该阶段最后输出矩阵P’,即为预测的后验概率矩阵;
(6)模型更新
选择模型更新的优化器,通过设置每一步的学习率来控制参数更新的幅度,将后验概率矩阵送入CTC模块中计算损失值p(y|x),并根据该值求得新的分支中所有参数的梯度值,使用求解器进行模型的更新,在模型更新迭代一定次数后,即可将模型定义和参数保存为文件,用于后续的推理过程中。
2.根据权利要求1所述的基于多字典样本加权的文本识别方法,其特征在于:所述步骤(1)中多种数据增强操作包括拉伸、透视变换、畸变、随机裁剪、高斯模糊、随机抖动等。
3.根据权利要求1所述的基于多字典样本加权的文本识别方法,其特征在于:所述步骤(1)中图像进行缩放操作,当文本行图像保持宽高比例将高度缩放至H时,若图像宽度小于W,则在其后填充0以使其宽度达到W;若图像宽度大于W,则进行非等比例缩放,将图像直接resize为目标大小。
4.根据权利要求1所述的基于多字典样本加权的文本识别方法,其特征在于:所述步骤(2)中特征第一维的大小为1,以便将该维度去掉并送入后续RNN网络中。
5.根据权利要求1所述的基于多字典样本加权的文本识别方法,其特征在于:所述步骤(3)中在新的增量数据需要进行训练时,可以加载并利用已有的预训练模型参数进行微调,只需要训练增量数据对应的分支头网络的参数即可,只需要少量的数据即可以达到一个较好的效果,并且极大的降低了训练时间。
6.根据权利要求1所述的基于多字典样本加权的文本识别方法,其特征在于:所述步骤(4)中若行数其不为整数,通常进行向下取整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京比特易湃信息技术有限公司,未经北京比特易湃信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111458126.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种平移透镜式调焦防水目镜
- 下一篇:一种智慧校园素质教育评估系统及方法