[发明专利]一种使用胶囊网络的新型图像描述生成算法在审

专利信息
申请号: 202111572920.7 申请日: 2021-12-21
公开(公告)号: CN114386569A 公开(公告)日: 2022-04-22
发明(设计)人: 于红;刘晗;刘元秋;刘雨欣 申请(专利权)人: 大连理工大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08
代理公司: 辽宁鸿文知识产权代理有限公司 21102 代理人: 苗青
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 使用 胶囊 网络 新型 图像 描述 生成 算法
【权利要求书】:

1.一种使用胶囊网络的新型图像描述生成算法,其特征在于,步骤如下:

(1)使用具有多通道的双线性池化注意模块处理区域级图像特征;

取区域级图像特征矩阵F并嵌入特征向量QE、KE、VE,KE和VE均初始化为F,QE初始化为所有区域级图像特征的平均池化

其中,fi为F的第i维,N为区域级图像特征的数目,QE、KE、VE为注意力机制中的查询向量、相关性向量、被查询向量;

首先用低秩双线性池化计算QE和KE的第i维ki的乘积得到中间表示对QE和VE的第i维vi进行双线性池化得到

其中,分别为ki、QE、vi、QE的嵌入矩阵,⊙为矩阵间的元素乘运算,σ为非线性激活函数;

对中间表示通过挤压奖励操作得到全局平均池化并捕获其通道依赖αc

其中,WB分别为的嵌入矩阵,N为的维度,σ为非线性激活函数;

根据αc和获得多通道的视觉表示

其中,为的第i维;

(2)使用胶囊网络提取图像级视觉表示;

将多通道的视觉表示输入到胶囊网络中进行2-4次动态路由运算,每次运算后更新胶囊网络的参数,得到最终的图像级视觉表示

所述的胶囊网络运算公式如下:

其中,Wif为μi的转换矩阵,为胶囊网络中对应μi的耦合系数;

所述的胶囊网络的空间耦合系数更新公式如下:

其中,bi、bj为胶囊网络中路由矩阵的第i、j维,bi通过累加μi和的乘积进行自我更新;

(3)使用LSTM和双线性池化模块对图像级视觉表示进行解码,得到图像描述;

解码器中包含一层LSTM,在每一时间步经过LSTM层和双线性池化模块生成单词,循环T个时间步最终得到长度为T的描述语句,T的长度最长为17;在t时刻,将区域级图像特征矩阵的平均池化和图像级视觉表示的联合表示t-1时刻计算得到的上下文向量ct-1、t-1时刻生成的单词向量st-1拼接为xt输入LSTM,得到隐藏层向量ht并输出至双线性池化模块和GLU模块,得到上下文向量ct,经过softmax运算后生成单词st

所述的LSTM输入xt的计算公式如下:

其中,WF、Wx为嵌入矩阵;

所述的隐藏层向量ht的计算公式如下:

ht=LSTM(xt,ht-1)

其中,ht-1为LSTM在t-1时刻的隐藏层状态矩阵;

所述的上下文向量ct的计算公式如下:

ct=GLU(FX-Linear(KD,VD,QD))

其中,FX-Linear为双线性池化模块的计算函数,KD、VD、QD为双线性池化模块中的相关性向量、被查询向量、查询向量,KD初始化为LSTM的隐藏层状态ht,VD、QD初始化为视觉联合表示

所述的生成单词的公式如下:

st=softmax(Wcct)

其中,st为t时刻生成的单词,Wc为ct的嵌入矩阵。

2.根据权利要求1所述的使用胶囊网络的新型图像描述生成算法,其特征在于,所述非线性激活函数为CELU激活函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111572920.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top