[发明专利]一种使用胶囊网络的新型图像描述生成算法在审
申请号: | 202111572920.7 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114386569A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 于红;刘晗;刘元秋;刘雨欣 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 苗青 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 胶囊 网络 新型 图像 描述 生成 算法 | ||
1.一种使用胶囊网络的新型图像描述生成算法,其特征在于,步骤如下:
(1)使用具有多通道的双线性池化注意模块处理区域级图像特征;
取区域级图像特征矩阵F并嵌入特征向量QE、KE、VE,KE和VE均初始化为F,QE初始化为所有区域级图像特征的平均池化
其中,fi为F的第i维,N为区域级图像特征的数目,QE、KE、VE为注意力机制中的查询向量、相关性向量、被查询向量;
首先用低秩双线性池化计算QE和KE的第i维ki的乘积得到中间表示对QE和VE的第i维vi进行双线性池化得到
其中,分别为ki、QE、vi、QE的嵌入矩阵,⊙为矩阵间的元素乘运算,σ为非线性激活函数;
对中间表示通过挤压奖励操作得到全局平均池化并捕获其通道依赖αc;
其中,WB分别为的嵌入矩阵,N为的维度,σ为非线性激活函数;
根据αc和获得多通道的视觉表示
其中,为的第i维;
(2)使用胶囊网络提取图像级视觉表示;
将多通道的视觉表示输入到胶囊网络中进行2-4次动态路由运算,每次运算后更新胶囊网络的参数,得到最终的图像级视觉表示
所述的胶囊网络运算公式如下:
其中,Wif为μi的转换矩阵,为胶囊网络中对应μi的耦合系数;
所述的胶囊网络的空间耦合系数更新公式如下:
其中,bi、bj为胶囊网络中路由矩阵的第i、j维,bi通过累加μi和的乘积进行自我更新;
(3)使用LSTM和双线性池化模块对图像级视觉表示进行解码,得到图像描述;
解码器中包含一层LSTM,在每一时间步经过LSTM层和双线性池化模块生成单词,循环T个时间步最终得到长度为T的描述语句,T的长度最长为17;在t时刻,将区域级图像特征矩阵的平均池化和图像级视觉表示的联合表示t-1时刻计算得到的上下文向量ct-1、t-1时刻生成的单词向量st-1拼接为xt输入LSTM,得到隐藏层向量ht并输出至双线性池化模块和GLU模块,得到上下文向量ct,经过softmax运算后生成单词st;
所述的LSTM输入xt的计算公式如下:
其中,WF、Wx为嵌入矩阵;
所述的隐藏层向量ht的计算公式如下:
ht=LSTM(xt,ht-1)
其中,ht-1为LSTM在t-1时刻的隐藏层状态矩阵;
所述的上下文向量ct的计算公式如下:
ct=GLU(FX-Linear(KD,VD,QD))
其中,FX-Linear为双线性池化模块的计算函数,KD、VD、QD为双线性池化模块中的相关性向量、被查询向量、查询向量,KD初始化为LSTM的隐藏层状态ht,VD、QD初始化为视觉联合表示
所述的生成单词的公式如下:
st=softmax(Wcct)
其中,st为t时刻生成的单词,Wc为ct的嵌入矩阵。
2.根据权利要求1所述的使用胶囊网络的新型图像描述生成算法,其特征在于,所述非线性激活函数为CELU激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111572920.7/1.html,转载请声明来源钻瓜专利网。