[发明专利]基于多级策略和深度强化学习框架的图像中文描述系统及方法有效
申请号: | 202110692364.0 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113408430B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 王玉静;杨凯悦;殷楠楠;谢金宝;梁欣涛 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/418;G06V10/82;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 | 代理人: | 荣玲 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多级 策略 深度 强化 学习 框架 图像 中文 描述 系统 方法 | ||
1.基于多级策略和深度强化学习框架的图像中文描述方法,是基于多级策略和深度强化学习框架的图像中文描述系统实现的,该系统包括图像特征提取模块、多级策略网络模块、多级奖励网络模块、强化学习训练模块和语句生成模块;
其中图像特征提取模块负责预训练图像信息后传输至多级策略网络模块;
多级策略网络模块将特征向量转化为矩阵后发送至多级奖励网络模块;
多级奖励网络模块负责将图像信息深度学习后输出至强化学习训练模块;
通过强化学习训练模块将多级策略网络模块和多级奖励网络模块处理后的信息共同训练,输出至语句生成模块完成图像的中文语句描述;
其特征在于:该方法具体步骤如下:
步骤一,采用ResNet152卷积神经网络提取图像特征;
步骤二,采用多级联合策略得到多级联合策略部分的图像特征映射向量;
步骤三,通过多级奖励网络计算权重并生成映射层,从而得到多级奖励部分的图像特征映射向量;
步骤四,通过强化学习训练将步骤二中和步骤三中得到的图像特征映射向量进行联合学习,生成图像的全局特征向量;
步骤五,通过语句生成模块将图像的全局特征向量生成中文语句,完成图像中文描述。
2.根据权利要求1所述的基于多级策略和深度强化学习框架的图像中文描述方法,其特征在于:在步骤一中,所述提取图像特征过程细化为:
步骤一一,基于ImageNet图像分类数据集对ResNet152网络进行预训练;
步骤一二,将预训练后的权重系数进行保存;
步骤一三,将训练好的权重偏置参数迁移至ResNet152网络中,
步骤一四,将训练集图片输入ResNet152网络中进行特征提取,所述训练集图片归一化为256*256*3比例;
步骤一五,ResNet152网络根据之前预训练好的权重系数对图片进行卷积池化计算,得到自适应平均池化层的输出;
步骤一六,输出2048维高级特征向量的图片。
3.根据权利要求1所述的基于多级策略和深度强化学习框架的图像中文描述方法,其特征在于:所述多级策略网络的参数包括单词级策略的参数和句子级策略的参数
所述单词级策略是指图像中文网络,具体步骤如下:
步骤二一,用CNN神经网络从输入图像中提取特征;
步骤二二,使用线性映射将其嵌入,单词由嵌入在与映射图像特征相同维的单向矢量表示,每个句子的开头都标有特殊的BOS令牌,每个句子的结尾都标有EOS令牌;在此策略下将生成单词;
步骤二三,将其输入回到基于RNN的模块中,其中图像特征I被视为第一个单词;最后,通过更新网络的隐藏状态和单元,基于RNN神经网络输出所有单词的分布;
所述句子级策略是一种视觉语义嵌入网络,将图像特征和句子映射到一个共同的嵌入空间中并测量之间的相似性;
最后统一图像特征向量与词语特征向量的维度,将图像2048维特征向量映射到512维的词向量特征空间得到最终的图像特征映射向量。
4.根据权利要求1所述的基于多级策略和深度强化学习框架的图像中文描述方法,其特征在于:所述步骤三细化为:
步骤三一,建立视觉-语言奖励和语言-语言奖励的结合,融合单词级和句子级策略;
步骤三二,在图像中文数据集中使用图像句子对,
步骤三三,使用双向排名损失来学习RNN权重和映射层,
步骤三四,输出多级奖励网络部分的图像特征映射向量。
5.根据权利要求3所述的基于多级策略和深度强化学习框架的图像中文描述方法,其特征在于:在步骤四中,所述强化学习训练具体步骤如下:
步骤四一,通过最小化负期望组合奖励,在等式中预训练词级策略和视觉语言奖励;
步骤四二,使用等式共同训练多级策略网络的参数从而得到基线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110692364.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带防伪图形标签制备方法
- 下一篇:一种高效的等离子切割机