[发明专利]一种面向多模态多任务学习的轻量化适配网络学习方法在审
申请号: | 202310629849.4 | 申请日: | 2023-05-31 |
公开(公告)号: | CN116644316A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 邵镇炜;金子添;余宙;俞俊 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/24;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 多模态多 任务 学习 量化 网络 学习方法 | ||
本发明公开了一种面向多模态多任务学习的轻量化适配网络学习方法,包括如下步骤:1、构建下游任务数据集,2、构建深度自注意力网络模型,3、预训练权重裁剪,4、构建任务适配器,5、适配预训练模型,6、设计渐进式引导蒸馏训练并训练模型。该方法对预训练模型部分权重进行裁剪,并采用高效的任务适配器与之适配。本发明提出了一种渐进式引导蒸馏训练算法以更好地填补预训练任务和下游任务之间的差异,保证了模型在下游任务上的性能。本发明可以与任何现有的基于深度自注意力网络的预训练模型相结合,通过训练得到在下游任务性能、模型部署时总存储开销、模型推理时计算开销和模型配置灵活性等方面均存在优越性的适配器模型。
技术领域
本发明属于轻量化多模态学习领域,具体涉及一种面向多模态多任务学习的轻量化适配网络学习方法。
背景技术
近些年,人工智能的各研究领域得益于深度自注意力网络架构和自监督预训练范式的兴起,均取得了巨大成功。以多模态领域为例,研究者们利用大参数量深度自注意力网络架构模型,并采用这种训练范式,首先在大规模图像-文本对的语料库上预训练以学习多模态任务通用知识,再针对不同的多模态任务,例如视觉问答、视觉目标定位、图像描述、图文检索、自然语言视觉推理、视觉蕴含推理等,进行参数微调。这种基于“预训练-微调”范式的大模型,在针对不同下游任务参数微调时会改变模型全量参数,意味着在模型落地时需要针对不同下游任务部署多个权重不同的大规模模型,这十分消耗存储空间。
为此,一种不改变预训练模型本身结构和参数权重而通过在模型中插入轻量化可学习参数的适配器微调方法应运而生。具体而言,通过在预训练模型中插入少量称为适配器的可学习参数的形式,下游任务微调时只训练这部分参数而保持预训练模型原有参数不变,使得预训练模型针对多个下游任务微调时参数效率更高。
现有的适配器微调方法在模型部署多个任务时,虽然均做到了参数高效,降低了存储开销,但它们均保持着预训练模型原本参数不变,通过增加少量参数适配多个下游任务,这会导致适配后的模型大小大于原始模型,在模型训练时增加内存开销、应用时增加推理开销。倘若能深入分析预训练模型不同部位的表征能力,保留下游任务通用部分而裁剪掉对下游任务无用的部分,再通过引入轻量适配器的形式,便不仅可以做到参数量高效,还可以做到模型推理时计算高效。因此,针对预训练模型设计一种多方面高效的适配器微调方法不仅对预训练模型部署领域有一定的应用价值,对其他领域的研究也具备一定的学术价值。
综上所述,如何设计一种高效的适配器微调方法,并将其与现有的预训练模型相结合是一个值得深入研究的课题。本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的、高效的轻量化适配器微调方法。
发明内容
针对现有技术中存在的不足,本发明提供了一种面向多模态多任务学习的轻量化适配网络学习方法,可以与任何现有的基于深度自注意力网络的预训练模型相结合,通过训练得到在下游任务性能、模型部署时总存储开销、模型推理时计算开销和模型配置灵活性等方面均存在优越性的适配器模型。
本发明主要包含两点:
1、通过分析预训练模型不同部位权重的表征能力,本发明对部分预训练权重进行裁剪,并设计了一种高效适配器与之适配,提出了一种先剪枝后填补的预训练模型适配器架构,使适配后的模型相较原始模型更轻量。
2、为了更好地填补预训练任务和下游任务之间的差异,本发明提出了一种针对适配器微调的渐进式引导蒸馏训练算法,使得适配器模型得到逐步稳定的训练,以获得更优的下游任务性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310629849.4/2.html,转载请声明来源钻瓜专利网。