[发明专利]一种面向通用多模态学习的神经框架搜索方法在审
申请号: | 202011300717.X | 申请日: | 2020-11-19 |
公开(公告)号: | CN112488292A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 余宙;俞俊;崔雨豪 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06K9/62;G06N3/08;G06T3/40;G06T9/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 通用 多模态 学习 神经 框架 搜索 方法 | ||
1.一种面向通用多模态学习的神经框架搜索方法,其特征在于包含两点:一个覆盖更多可能性的稳定的高效冗余网络以及一个从冗余网络中搜索到子网络且保证子网络性能和效率的搜索方法;具体包括如下步骤:
步骤(1)、数据预处理,对图像和文本数据提取特征
步骤(2)、初始化编码器-解码器结构冗余网络和对应的架构参数;
步骤(3)、从架构参数分布中采样子结构,并计算结果;
步骤(4)、模型搜索,分为两个阶段:1.热启动阶段2.交替训练搜索阶段;
步骤(5)、模型训练,不断优化,直至整个网络模型收敛。
2.根据权利要求1所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(1)具体实现如下:
1-1.对图像V进行预处理和特征提取:
对图像V进行亮度归一化并且比例缩放到最小边Pmin像素,最长边裁剪到Pmax像素,得到预处理后图像V′,将V′输入到训练好的Faster-RCNN网络中提取出图像中n个物体的框相应的特征最后dfeat为特征的表示维度,dm为模型隐含层向量维度;
1-2.提取文本数据的特征:
对于给定的单词数量为m的句子通过用GloVe初始化的Word Embedding层句子的单词级表示再通过单层单向LSTM得到文本特征si表示每个单词的表征,dglove为GloVe特征的表示维度。
3.根据权利要求2所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(2)具体实现如下:
2-1.定义子操作多头关系注意力模块MHRA(x,y,z,r);输入x,y,
其中head为:
其中headj为第j个head,Nhead为注意力头的数量,函数A为:
2-2.定义子操作自注意力机制SA(x)=MHRA(x,x,x,0);
定义子操作协同注意力机制GA(x,y)=MHRA(x,y,y,0);
定义子操作关系自注意力机制RSA(x,r)=MHRA(x,x,x,r);
定义子操作前馈网络FFN(x)=Wf1Dropout(max(Wf0x,0)),其中
2-3.定义编码器层数e,解码器层数为d,初始化每一层的冗余结构,其中每层编码器的冗余结构:
aenc(x)={SA(x),FFN(x)}
每层解码器的冗余结构:
adec(x,y)={SA(x),RSA(x),GA(x,y),FFN(x)};
从而得到编码器Aenc(x):
和解码器Adec(x,y):
初始化每个子操作所对应的架构参数:
其中,代表了第i层的SA(x)子操作所对应的架构参数,代表了第i层的RSA(x)子操作所对应的架构参数,GA(x,y)代表了第i层的ga子操作所对应的架构参数,代表了第i层的FFN(x)子操作所对应的架构参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011300717.X/1.html,转载请声明来源钻瓜专利网。