[发明专利]一种用于印章图文比对的多模态深度模型训练方法有效
申请号: | 202110629993.9 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113177961B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 吴乐琴;覃勋辉;刘科;申发海 | 申请(专利权)人: | 重庆傲雄在线信息技术有限公司 |
主分类号: | G06T7/12 | 分类号: | G06T7/12;G06T7/13;G06T5/00;G06V10/44;G06V10/82;G06V10/764;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆弘旭专利代理有限责任公司 50209 | 代理人: | 周韶红 |
地址: | 401121 重庆市渝北*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 印章 图文 多模态 深度 模型 训练 方法 | ||
1.一种用于印章图文比对的多模态深度模型训练方法,其特征在于:
包括:
S001、训练数据生成:生成字符和代码,以极坐标模式调整字符和代码位置生成印章图像,得到训练正、负样本数据;其中,所述正样本数据为印章图像与文本完全匹配的数据,所述负样本数据为印章图像与文本不完全一致的数据;所述生成印章图像具体为:采用OpenCV首先生成圆形外框并预置印章的字符、代码以及五角星区域;然后生成字符和代码,并根据字符数量、字体大小、字体间距、内外环边距四个参数,以极坐标的模式进行调整字符和代码位置;
所述以极坐标的模式进行调整字符和代码位置的具体步骤为:首先根据极坐标内外环边距确定内圆周长、从而确定字符所占的长度,然后根据字符数量和字体大小计算确定内环字体间距;最后在极坐标中,按照字符顺序依次排列,字符在内环的间距根据字符数量和字体大小计算确定;
S002、印章图像预处理:对印章图像进行目标检测、裁剪、图像分割处理,获得清晰、准确的印章图像;然后对清晰、准确的印章图像进行缩放、填充处理,使其满足骨干网络的输入格式;
S003、图片特征提取:采用骨干网络对预处理后的印章图像进行图片特征的提取,然后通过全连接层对提取的图片特征维度进行重映射,再对重映射后的向量个数进行随机重采样;
S004、文本特征表达:采用文本预训练字向量进行表达;
S005、文本与图像融合:采用BERT模型作为融合模型,文本特征表达与图片特征作为匹配对输入到BERT模型中,通过骨干网络提取重映射与重采样的图像特征、文本向量输入BERT模型,图像特征和文本向量特征经过BERT编码后生成分类向量、分类向量经过全连接网络生成二维输出向量;
S006、训练模型:将负样本数据的印章图像与文本分别作为图片特征与文本特征表达融合到BERT模型中,通过输出向量接分类损失函数,设定分类函数loss,loss值误差反向传播,更新权重参数,不断迭代训练分类网络,直至误差收敛、loss值不再下降,完成学习;
S007、测试过程:采用函数softmax替代分类函数loss,设定预设阈值,判断是否匹配。
2.根据权利要求1所述的一种用于印章图文比对的多模态深度模型训练方法,其特征在于:所述缩放处理具体为将所有图像等长宽比例调整到同样的尺寸,多余的面积采用黑色进行填充。
3.根据权利要求1所述的一种用于印章图文比对的多模态深度模型训练方法,其特征在于:所述分类函数loss采用二分类交叉熵损失函数,其具体步骤为:所述BERT模型输出端输出2*1的向量,分别代表匹配与不匹配的置信度;采用softmax层将置信度归一化到0~1的范围内、并让置信度总和为1,输出归一化后匹配与不匹配的置信度;最后将置信度采用二分类交叉熵损失函数来表示模型的损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆傲雄在线信息技术有限公司,未经重庆傲雄在线信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110629993.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种农业种植浇灌用植保无人机
- 下一篇:一种百香果取果肉方法及装置