[发明专利]跨模态的图像多风格字幕生成方法及系统有效

申请号：	202010732247.8	申请日：	2020-07-27
公开（公告）号：	CN112084841B	公开（公告）日：	2023-08-04
发明（设计）人：	杨振宇;刘侨	申请（专利权）人：	齐鲁工业大学
主分类号：	G06V20/62	分类号：	G06V20/62;G06V30/18;G06V10/82;G06N3/0464;G06N3/0442;G06N3/0455;G06N3/048;G06N3/047;G06N3/0475;G06N3/094
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250353 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	跨模态图像风格字幕生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.跨模态的图像多风格字幕生成方法，其特征是，包括：

获取待生成字幕的图像；

将待生成字幕的图像，输入到预先训练好的多风格字幕生成模型中，输出图像的多风格字幕；所述预先训练好的多风格字幕生成模型，是基于对抗生成网络训练后得到的；训练步骤包括：先对多风格字幕生成模型的表达图像客观信息的能力进行训练，然后对多风格字幕生成模型的生成风格化字幕的能力进行训练；

所述对抗生成网络，包括：

依次连接的字幕生成器和判别器模块；

所述字幕生成器，包括：依次连接的编码器和解码器；

所述判别模块，包括：客观信息判别器和风格信息判别器，客观信息判别器和风格信息判别器的输入端均与解码器的输出端连接；

所述训练步骤均采用标准的生成对抗网络的训练方式，将字幕生成器和客观信息判别器组成第一生成对抗网络框架，使模型具有识别并描述图像客观信息的能力；将解码器和风格信息判别器组成第二生成对抗网络框架，使模型具有生成带有风格化信息字幕的能力；

所述编码器，包括：若干个串联的编码层，每个编码层均包括依次连接的多头注意力机制模块、第一层标准化模块、前馈神经网络和第二层标准化模块；其中，多头注意力机制模块的输入端还与第一层标准化模块的输入端连接，第一层标准化模块的输出端还与第二层标准化模块的输入端连接；

所述编码器的工作原理是：编码器将经过卷积神经网络处理的图像特征作为输入，并经过由多头注意力模块、标准化层、前向神经网络组成的多个编码层进行处理，得到最终的图像表示；

所述解码器，包括依次串联的输入层、加法器、掩码多头注意力机制模块、第三层标准化模块、编码器-解码器注意力模块、第四层标准化模块、第二前馈神经网络模块、第五层标准化模块、Softmax层和输出层；

所述加法器的输入端还与风格标志器连接，所述加法器的输出端还与第三层标准化模块连接，所述第三层标准化模块的输出端还与第四层标准化模块的输入端连接，所述第四层标准化模块的输出端还与第五层标准化模块的输入端连接；所述编码器-解码器注意力模块的输入端还与编码器的第二层标准化模块的输出端连接；所述风格标志器用于指示特定的风格，使用k+1维的独热向量表示特定的风格，然后输入到风格编码层得到风格标志；

所述解码器的工作原理是：解码器将编码器的输出、前一时刻生成的单词以及风格标志作为输入，经过由多头注意力、标准化层、编码器-解码器注意力以及前馈神经网络组成的解码层，最终标准化层的输出输入到线性层并经过Softmax函数，得到概率分布；最后，模型通过查表的方式得到当前时刻的输出词汇；

所述客观信息判别器，包括：卷积神经网络，所述卷积神经网络的输入端用于输入待生成字幕的图像，所述卷积神经网络的输出端用于输出第一特征图，将第一特征图嵌入字幕生成器生成的字幕后，得到第二特征图，将第二特征图经过两个分支的卷积处理和最大池化处理，分别得到第三特征图和第四特征图，将第三特征图和第四特征图均通过带有sigmoid函数的多层感知机处理，得到第一得分；

所述风格信息判别器，包括：串联的第一LSTM神经网络和第二LSTM神经网络；第一LSTM神经网络的输入端用于输入真实表述字幕，第一LSTM神经网络的输出端得到真实表述字幕的向量表示，将真实表述字幕的向量表示输入到第二LSTM神经网络中用于初始化第二LSTM中的初始时刻的隐状态，第二LSTM神经网络还用于输入每一时刻的单词，最后，第二LSTM神经网络的输出端输出的数据输入到带有sigmoid函数的多层感知机处理，得到第二得分。

2.如权利要求1所述的方法，其特征是，所述对多风格字幕生成模型的表达图像客观信息的能力进行训练；具体步骤包括：

将字幕生成器和客观信息判别器组成第一生成对抗网络框架；

构建第一训练集，所述第一训练集为已知图像表达字幕的图像；

第一训练集的图像输入到字幕生成器中，字幕生成器生成字幕；

将字幕生成的字幕与已知的图像表达字幕输入到客观信息判别器中进行真假判断，当客观信息判别器判断成功率等于设定阈值时，停止判断，得到训练好的字幕生成器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学，未经齐鲁工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010732247.8/1.html，转载请声明来源钻瓜专利网。