[发明专利]一种基于编-解码器结构的可控图像字幕生成优化方法在审
申请号: | 202110761130.7 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113628288A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 邵洁;杨润霞;马潇雨;罗岩 | 申请(专利权)人: | 上海电力大学 |
主分类号: | G06T9/00 | 分类号: | G06T9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 丁云 |
地址: | 200090 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 解码器 结构 可控 图像 字幕 生成 优化 方法 | ||
1.一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,该方法包括:
构建图像编码器,用于进行目标检测并提取各目标区域的图像特征,得到各目标区域的特征向量;
采用排序网络对目标区域进行排序;
构建图像解码器,将排序后的目标区域的特征向量输入至图像解码器,解码输出图像字幕。
2.根据权利要求1所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的图像编码器包括用于提取图像一般性特征的第一网络、用于提取图像视觉常识性特征的第二网络以及对特征进行融合的融合器,所述的第一网络和第二网络通过共享边界框坐标来保证提取的是相同目标区域的特征。
3.根据权利要求2所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的第一网络包括Faster R-CNN网络。
4.根据权利要求2所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的第二网络包括VC R-CNN网络。
5.根据权利要求1所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,所述的图像解码器采用改进激活函数的LSTM神经网络,改进的激活函数为m-Tanh激活函数,表示为:
其中,x为输入,Hx()为输出,m为常数。
6.根据权利要求5所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,利用m-Tanh激活函数更新LSTM神经网络细胞状态的具体方式为:
其中,xt为t时刻输入的目标区域的特征向量,ht-1为t-1时刻隐藏层的状态,Wc、分别表示网络的权重和偏差参数,ft、it分别表示t时刻的遗忘门向量和输入门向量,Ct-1、Ct分别表示t-1时刻、t时刻的细胞状态更新向量,分别表示t-1时刻、t时刻的细胞状态初始向量。
7.根据权利要求6所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,利用m-Tanh激活函数更新LSTM神经网络隐藏层状态的具体方式为:
其中,ht为t时刻隐藏层的状态,ot为t时刻输出门向量。
8.根据权利要求1所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,当采用不同的图像编码器、排序网络、图像解码器生成不同的图像字幕后,多分枝决策输出算法来选出最优的图像字幕。
9.根据权利要求8所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,多分枝决策输出算法具体为:
对各情况下输出的图像字幕进行评价获取评价指标向量;
基于评价指标向量对图像字幕两两进行比对,选出最优的图像字幕。
10.根据权利要求9所述的一种基于编-解码器结构的可控图像字幕生成优化方法,其特征在于,对图像字幕两两比对的具体方式为:
对评价指标向量中的每个指标进行对比,若第一图像字幕中的各个评价指标均大于第二图像字幕的各个评价指标,则优选第一图像字幕,若第二图像字幕中的各个评价指标均小于第二图像字幕的各个评价指标,则优选第二图像字幕,否则,根据各个评价指标的重要程度为各个评价指标设置权重,对评价指标向量中的评价指标进行加权求和,优选加权求和结果较大的图像字幕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电力大学,未经上海电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110761130.7/1.html,转载请声明来源钻瓜专利网。