[发明专利]基于Transformer结构的图像描述生成模型方法、装置和计算机设备在审
申请号: | 202210028340.X | 申请日: | 2022-01-11 |
公开(公告)号: | CN114266905A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 翟浩;陈立志;方小龙;潘龙越;杨有 | 申请(专利权)人: | 重庆师范大学 |
主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/44;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京和联顺知识产权代理有限公司 11621 | 代理人: | 白京萍 |
地址: | 401331 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 结构 图像 描述 生成 模型 方法 装置 计算机 设备 | ||
1.一种基于Transformer结构的图像描述生成模型方法,其特征在于,包括:
提取图像特征,其中,所述图像特征包括显著区域特征和视觉常识特征;
将所述显著区域特征和视觉常识特征分层输入到Transformer编码器中,以生成自适应融合的编码特征,其中,Transformer编码器包括多个分层,多个所述分层根据所述显著区域特征和视觉常识特征生成自适应常识门,所述自适应常识门用于对所述显著区域特征和所述视觉常识特征进行自适应融合;
将所述编码特征输入至Transformer解码器中完成训练,以搭建图像描述生成模型;
基于MSCOCO数据集对所述图像描述生成模型进行测试,以完成图像到语句的转化。
2.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法,其特征在于,所述提取图像特征的步骤,包括:
基于Faster R-CNN构建图像的区域建议网络;
将所述区域建议网络引入深度神经网络模型中,得到基于深度神经网络的组合图像特征,将所述组合图像特征作为显著区域特征;
基于VCR-CNN提取图像边界框的坐标,其中,坐标包括多个;
将多个所述坐标输入卷积神经网络模型中进行训练,训练完成后得到视觉常识特征。
3.根据权利要求2所述的基于Transformer结构的图像描述生成模型方法,其特征在于,所述将所述区域建议网络引入深度神经网络模型中,得到基于深度神经网络的组合图像特征的步骤,包括:
基于所述区域建议网络获取多个不同批次的多个第一图像;
对每一个批次的每一个所述第一图像进行短边缩放,得到每一个批次的短边缩放的多个第二图像;
将每一个批次的多个所述第二图像传入卷积神经网络层中以对多个所述第二图像进行卷积和池化,以生成每一个批次的多个第二图像的组合图像特征。
4.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法,其特征在于,所述将所述显著区域特征和视觉常识特征分层输入到Transformer编码器中,以生成自适应融合的编码特征的步骤,包括:
对所述显著区域特征和所述视觉常识特征进行拼接,得到拼接融合特征;
根据所述拼接融合特征对图像模态间和模态内的常识性关系进行建模,得到ACG融合模型;
将所述拼接融合特征输入到所述ACG融合模型中进行训练,得到ACG输出特征;
将所述ACG输出特征分层输入到自注意力块中进行融合,得到多个层次的融合编码向量,其中,所述自注意力块包括多个,多个所述自注意力块进行模态内和跨模态的分层交互;
对所述融合编码向量进行残差和归一化处理,得到自适应融合的编码特征。
5.根据权利要求4所述的基于Transformer结构的图像描述生成模型方法,其特征在于,所述对所述显著区域特征和所述视觉常识特征进行拼接,得到拼接融合特征的步骤,包括:
基于所述视觉常识特征依次获取每一个所述视觉常识特征对应的视觉特征向量;
基于所述显著区域特征依次获取每一个所述显著区域特征对应的显著区域向量;
根据所述视觉特征向量与所述显著区域向量对所述显著区域特征和所述视觉常识特征进行拼接,其中,拼接公式为:
vci=[vi,ci];
VC={vc1,vc2,…,vcN};
其中,所述vi∈Rd,ci∈Rd,vci∈R2d,vi∈Rd表示d维的第i个视觉特征向量,ci∈Rd表示d维的第i个显著区域向量,vci∈R2d表示2d维的显著区域特征和视觉常识特征的拼接向量;所述vci表示第i个显著区域特征和第i个视觉常识特征拼接;VC表示拼接融合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆师范大学,未经重庆师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210028340.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防堵塞的一体化雨水收集系统
- 下一篇:用于电子产品散热的封闭壳体
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序