[发明专利]图像描述的方法及装置、图像描述模型的训练方法及装置在审
申请号: | 201910760737.6 | 申请日: | 2019-08-16 |
公开(公告)号: | CN110472688A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 廖敏鹏;白静;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 11637 北京智信禾专利代理有限公司 | 代理人: | 王治东<国际申请>=<国际公布>=<进入 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像描述 语句 目标图像 图像标签 特征矩阵 图像特征 提取图像特征 解码器 标签提取 关键信息 冗余数据 解码 编码器 参考 申请 | ||
1.一种图像描述的方法,其特征在于,用于图像描述模型,所述方法包括:
对目标图像提取图像特征;
将所述图像特征进行标签提取,生成对应的图像标签;
将所述目标图像的图像特征和图像标签输入至图像描述模型的编码器,生成所述目标图像对应的特征矩阵;
将所述特征矩阵输入至图像描述模型的解码器进行解码,得到目标图像对应的图像描述语句。
2.如权利要求1所述的方法,其特征在于,将所述图像特征进行标签提取,生成对应的图像标签,包括:
将所述图像特征输入至多标签分类模型进行标签提取,生成至少一个对应的图像标签。
3.如权利要求1所述的方法,其特征在于,所述编码器包括一个编码层;
将所述目标图像的图像特征和图像标签输入至图像描述模型的编码器,生成所述目标图像对应的特征矩阵,包括:
将所述目标图像的图像特征和图像标签分别进行预处理,生成预处理图像特征和标签向量;
将预处理图像特征和标签向量输入至所述编码层,并将所述编码层的输出特征作为所述目标图像对应的特征矩阵。
4.如权利要求1所述的方法,其特征在于,所述编码器包括顺次连接的N个编码层;
将所述目标图像的图像特征和图像标签输入至图像描述模型的编码器,生成所述目标图像对应的特征矩阵,包括:
S11、将所述目标图像的图像特征和图像标签分别进行特征处理,生成预处理图像特征和标签向量;
S12、将预处理图像特征和标签特征输入至第一个编码层,得到第一个编码层的输出特征;
S13、将第i-1个编码层的输出特征和标签向量输入至第i个编码层,得到第i个编码层的输出特征;
S14、将i自增1,判断自增1后的i是否小于N,若是,执行步骤S13,若否,执行步骤S15;
S15、将第N个编码层的输出特征作为所述目标图像对应的特征矩阵。
5.如权利要求4所述的方法,其特征在于,所述编码层包括:第一自注意力层、第一多头注意力层和第一前馈层;
将预处理图像特征和标签向量输入至第i个编码层,得到第i个编码层的输出特征,包括:
将预处理图像特征输入至第i个编码层的第一自注意力层进行处理,生成第一自注意特征;
将所述第一自注意特征和所述标签特征输入至第i个编码层的第一多头注意力层,生成第一融合特征;
将所述第一融合特征经由第一前馈层处理,生成第i个编码层的输出特征。
6.如权利要求1所述的方法,其特征在于,将所述特征矩阵输入至图像描述模型的解码器进行解码,得到目标图像对应的图像描述语句,包括:
将参考解码向量以及特征矩阵输入至所述解码器进行解码,得到所述解码器输出的解码向量;
根据所述解码向量进行线性化和归一化处理,生成目标图像对应的图像描述语句。
7.一种图像描述模型的训练方法,其特征在于,所述方法包括:
对样本图像提取图像特征;
将所述图像特征进行标签提取,生成对应的图像标签;
将所述样本图像的图像特征、图像标签以及所述样本图像对应的样本图像描述语句输入至图像描述模型,对所述图像描述模型进行训练,直至达到训练停止条件。
8.如权利要求7所述的方法,其特征在于,所述训练停止条件包括:
将所述图像描述模型生成的解码向量与预设的向量验证集进行对比,得到所述解码向量的误差的变化率小于稳定阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910760737.6/1.html,转载请声明来源钻瓜专利网。