[发明专利]图片文字识别模型训练方法、装置及文字识别系统有效
申请号: | 201910437650.5 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110210542B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 陈方毅;白明白 | 申请(专利权)人: | 厦门美柚股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 景鹏 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 文字 识别 模型 训练 方法 装置 系统 | ||
1.一种图片文字识别模型训练方法,其特征在于,包括:
S1、获取指定用户群体上传的原始图片,从文本库中随机选择词语并进行字体变形以生成测试文字;其中,所述指定用户群体包括如下特征:女性、已婚、怀孕、年龄符合阈值;
S1.5、按照预设的图片分类标准区分并标记所述原始图片,其中,所述预设的图片分类标准包括以下类别:正常、色情、性感、孕妇、小男孩和小女孩;构建基于Resnet-50的变体模型,并基于被标记的原始图片进行训练获得鉴别模型;
S2、随机结合所述测试文字和所述原始图片以形成测试图集;
S3、基于测试图集训练CTPN模型获得文字定位模型,基于测试文字训练CRNN模型获得文字识别模型;
S4、依次结合所述鉴别模型、所述文字定位模型、文字识别模型以形成图片文字识别模型,其中,通过所述鉴别模型甄选出一类或者多类的图片,然后通过所述文字定位模型确定被甄选出的图片的文字的位置,通过所述文字识别模型进行文字的识别。
2.根据权利要求1所述的一种图片文字识别模型训练方法,其特征在于,构建基于Resnet-50的变体模型包括:
建立神经网络模型Resnet-50,修改卷积层的深层过滤器的参数为[32,32,128],标记修改参数后的神经网络模型为Resnet-50的变体模型。
3.根据权利要求1所述的一种图片文字识别模型训练方法,其特征在于,S1.5包括:
通过开源图集训练所述变体模型,得到预训练模型;
根据预设的图片分类标准的种类数修改所述变体模型最后一层的全连接层,并加载预训练模型的参数以形成训练模型;
基于所述训练模型和被标记的原始图片进行训练以生成鉴别模型。
4.根据权利要求1所述的一种图片文字识别模型训练方法,其特征在于,所述鉴别模型的参数具体包括:随机数种子seed、学习率learning_rate、批尺寸batch_size和交叉熵损失函数的权重pos_weight。
5.根据权利要求4所述的一种图片文字识别模型训练方法,其特征在于,标记所述色情、性感和小女孩类别图片对应的交叉熵损失函数的权重,高于标记正常和小男孩类别图片对应的交叉熵损失函数的权重。
6.根据权利要求4所述的一种图片文字识别模型训练方法,其特征在于,确定交叉熵损失函数的权重的包括:
设置原始权重,确定每一个标记的单独权重的最优间隔,在最优间隔的范围内随机组合全部标记的单独权重以形成权重组合,根据所述权重组合设置多个鉴别模型,根据验证集和测试集指标训练所述多个鉴别模型以确定最优的鉴别模型的权重组合为交叉熵损失函数的权重。
7.根据权利要求5所述的一种图片文字识别模型训练方法,其特征在于,所述鉴别模型的参数具体取值为:seed取值为1024;learning_rate取值为0.00025;batch_size取值为32;pos_weight取值为1:5:3:1:1:3,其中,所述权重分别对应标记的类别为正常:色情:性感:孕妇:小男孩:小女孩。
8.根据权利要求1所述的一种图片文字识别模型训练方法,其特征在于,所述文字定位模型的参数包括batch_size、learning_rate、momentum和gamma;其中,batch_size为批尺寸,取值为64;learning_rate为学习率,取值为0.00001;momentum为冲量,取值为0.9;gamma为伽马值,取值为0.1;
所述文字识别模型的参数包括batch_size和learning_rate;batch_size为批尺寸,取值为128;learning_rate为学习率,取值为0.0001。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美柚股份有限公司,未经厦门美柚股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910437650.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像融合方法及设备、存储装置
- 下一篇:图像分类系统、方法、设备和存储介质