[发明专利]一种图像描述模型的训练方法及训练装置在审

专利信息
申请号: 202111341668.9 申请日: 2021-11-12
公开(公告)号: CN114090815A 公开(公告)日: 2022-02-25
发明(设计)人: 曹晚霞;朱飞 申请(专利权)人: 海信电子科技(武汉)有限公司
主分类号: G06F16/583 分类号: G06F16/583;G06F40/126;G06F40/194;G06K9/62;G06V10/74;G06V10/774;G06V10/82;G06N3/04;G06N3/08
代理公司: 北京弘权知识产权代理有限公司 11363 代理人: 逯长明;许伟群
地址: 430073 湖北省武汉市东湖新技术开发*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 图像 描述 模型 训练 方法 装置
【权利要求书】:

1.一种图像描述模型的训练方法,其特征在于,所述训练方法包括:

获取图文对训练集,所述图文对训练集包括多个图文对,每个图文对包括图像,以及描述图像内容的标注文本;

采用所述图文对训练集对图像描述模型进行词粒度训练,得到中间模型;

利用所述图文对训练集中任一候选图文对,对所述中间模型执行目标训练步骤,直至所述中间模型的模型参数收敛,所述候选图文对包括候选图像以及候选标注文本,其中,所述目标训练步骤包括:

将所述候选图像输入所述中间模型进行图像描述,得到候选预测文本,所述图像描述包括图像特征提取和图像描述文本生成;

确定所述候选图像与所述候选预测文本的图文相似度;

确定所述候选预测文本与所述候选标注文本的CIDEr;

根据所述图文相似度、预设的模型超参数以及所述CIDEr,得到所述中间模型进行图像描述所能得到的当前奖励值;

根据所述当前奖励值,获取所述中间模型的参数更新梯度;

利用所述参数更新梯度调整所述中间模型的参数。

2.根据权利要求1所述的训练方法,其特征在于,所述确定所述候选图像与所述候选预测文本的图文相似度,包括:

对所述候选预测文本进行文本编码,得到多个词向量;

将所述候选图像和多个词向量输入预先构建的图文匹配模型,得到所述候选图像与所述候选预测文本的图文相似度,所述图文匹配模型利用扩充训练集,并且采用MOCO学习方法完成训练,所述扩充训练集为对所述图文对训练集进行负例扩充后得到的数据集。

3.根据权利要求2所述的训练方法,其特征在于,所述扩充训练集通过以下方式确定:

获取所述候选图像对应的多个负例文本,得到多个第一负例图文对;

获取所述候选标注文本对应的多个负例图像,得到多个第二负例图文对;

所有第一负例图文对、所有第二负例图文对,以及所述图文对训练集,共同构成所述扩充训练集。

4.根据权利要求3所述的训练方法,其特征在于,所述获取所述候选图像对应的多个负例文本,得到多个第一负例图文对,包括:

分别确定所述候选图像与所述图文对训练集中除所述候选标注文本以外的其他标注文本的图文相似度;

按照图文相似度由小到大的顺序,获取x个不匹配文本;

对所述候选标注文本进行场景改写,获取多个改写文本;

按照通顺度由高到低的顺序,获取y个通顺改写文本;

将所述不匹配文本和所述通顺改写文本合并为多个负例文本;

所述候选图像与每个负例文本,构成第一负例图文对。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信电子科技(武汉)有限公司,未经海信电子科技(武汉)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111341668.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top