[发明专利]一种面向多模态多任务学习的轻量化适配网络学习方法在审
申请号: | 202310629849.4 | 申请日: | 2023-05-31 |
公开(公告)号: | CN116644316A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 邵镇炜;金子添;余宙;俞俊 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/24;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 多模态多 任务 学习 量化 网络 学习方法 | ||
1.一种面向多模态多任务学习的轻量化适配网络学习方法,其特征在于,包括如下步骤:
步骤(1)、构建下游任务数据集,并划分为训练集、验证集及测试集,所述下游任务数据集包括视觉问答、自然语言视觉推理、视觉蕴含推理和视觉目标定位;
步骤(2)、对数据集中的图像数据,使用现有训练好的Faster R-CNN目标检测网络提取区域图像特征,对于数据集中的文本数据,使用词嵌入向量提取出其语义特征,随后将提取出的图像和文本特征拼接,得到最终的输入特征;
步骤(3)、构建深度自注意力网络模型,深度自注意力网络由多个结构相同的层堆叠而成,每层由多头注意力模块和前馈层组成,通过深度自注意力网络模型对输入特征进行深层次的理解及处理,得到含义更加丰富的多模态特征;
步骤(4)、深度自注意力网络模型预训练权重裁剪,所述权重裁剪分为切分多头注意力模块和切分前馈层两类;
步骤(5)、构建任务适配器
所述任务适配器为插入到深度自注意力网络模型每层中的可学习参数,一个轻量化的任务适配器包含两个可学习参数矩阵Wdown和Wup,并在其中间含有一个非线性激活函数;
步骤(6)、适配预训练模型,结合切分后的预训练模型与任务适配器,得到适配器模型;
步骤(7):设计渐进式引导蒸馏训练并训练模型
采用传统“预训练-微调”范式下的全量微调模型作为教师模型,以适配器模型为学生模型,在每次训练迭代中,教师模型和学生模型共同训练,通过逐步引导的方式将自身学到的知识渐进式地蒸馏给学生适配器模型,除了蒸馏适配器模型整体输出特征外,训练算法同步蒸馏教师模型每层的输出特征。
2.根据权利要求1所述的一种面向多模态多任务学习的轻量化适配网络学习方法,其特征在于,所述视觉问答任务采用VQA-v2数据集,所述自然语言视觉推理任务采用NLVR2数据集,所述视觉蕴含推理任务采用SNLI-VE数据集,所述视觉目标定位任务采用Ref-COCO、Ref-COCO+和Ref-COCOg数据集。
3.根据权利要求1所述的一种面向多模态多任务学习的轻量化适配网络学习方法,其特征在于,所述步骤(2)中,对于上述多模态数据集中的图像数据,使用在Visual Genome数据集上预先训练好的Faster R-CNN目标检测模型提取出图像的区域特征其中m为图像的区域候选框个数,Dod为区域特征维度;随后,使用一个可学习的线性变换对目标检测模型提取出的图像的区域特征做进一步处理,将其特征维度映射到D维空间上,得到最后的图像区域特征具体公式如下:
Ximage=Linear(Xod) (1)
对于上述多模态数据集中的文本,使用词嵌入向量提取出文本的语义特征其中n为文本的单词数量,D为语义特征维度,与最终的图像区域特征维度相同;
随后,将提取出的图像和文本特征拼接,得到最终的输入特征具体公式如下:
Xinput=[Ximage,Xext] (2)
其中,num=m+n,为图像和文本特征总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310629849.4/1.html,转载请声明来源钻瓜专利网。