[发明专利]一种面向多任务语言模型的元-知识微调方法及平台有效
申请号: | 202011202867.7 | 申请日: | 2020-11-02 |
公开(公告)号: | CN112100383B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 王宏升;王恩平;单海军 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N5/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 任务 语言 模型 知识 微调 方法 平台 | ||
本发明公开了一种面向多任务语言模型的元‑知识微调方法及平台,该方法基于跨域的典型性分数学习,获得同类任务不同数据集上高度可转移的共有知识,即元‑知识,将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。本发明是在下游任务跨域数据集上进行微调,微调所得的压缩模型的效果不受限于该类任务的特定数据集,在预训练语言模型基础上,通过元‑知识微调网络对下游任务进行微调,由此得到与数据集无关的同类下游任务语言模型。
技术领域
本发明属于语言模型压缩领域,尤其涉及一种面向多任务语言模型的元-知识微调方法及平台。
背景技术
大规模预训练语言模型自动压缩技术在自然语言理解和生成任务的应用领域都取得了显著作用;然而,在面向智慧城市领域下游任务时,基于特定数据集重新微调大模型仍然是提升模型压缩效果的关键步骤,已有的面向下游任务语言模型的微调方法是在下游任务特定数据集上进行微调,训练所得的压缩模型的效果受限于该类任务的特定数据集。
发明内容
本发明的目的在于针对现有技术的不足,提供一种面向多任务语言模型的元-知识微调方法及平台。本发明提出基于跨域的典型性分数学习,利用该方法获得同类任务不同数据集上高度可转移的共有知识,引入“元-知识”将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化,提升智慧城市领域语言模型应用中同类下游任务在不同域数据集上的微调效果,提升了同类任务通用语言模型的参数初始化能力和泛化能力。
本发明的目的是通过以下技术方案实现的:一种面向多任务语言模型的元-知识微调方法,包括以下几个阶段:
第一阶段,计算同类任务跨域数据集的类原型:从同一类任务的不同域的数据集中,集中学习该类任务对应域的原型的嵌入特征,将同类任务不同域的所有输入文本的平均嵌入特征,作为对应的同一类任务多域的类原型;
第二阶段,计算实例的典型性分数:采用dself表示每个实例的嵌入特征与自身域原型的距离,dothers表示每个实例的嵌入特征与其它域原型的距离;每个实例的典型性分数定义为dself与dothers的线性组合;
第三阶段,基于典型性分数的元-知识微调网络:利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数,设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数;该损失函数惩罚文本分类器预测错误的所有域的实例的标签。
进一步地,所述第一阶段中,采用表示在数据集的第k个域Dk中类标签为m的输入文本的集合:
其中,m∈M,M为数据集中所有类标签的集合;为第k个域中第i个实例;
类原型为第k个域中类标签为m所有输入文本的平均嵌入特征:
其中,ε(·)表示BERT模型输出的的嵌入表示;对于BERT模型,平均嵌入特征是输入对应的最后一层Transformer编码器的平均池化。
进一步地,所述第二阶段中,将实例的典型性分数为:
其中,α是一个预定义的平衡因子,0α1;cos(·,·)是余弦相似性度量函数;K是域的个数;是指示函数,如果则返回1,如果则返回0,索引用于求和;βm>0是的权重,同一类的权重相同。
进一步地,所述第三阶段中,多任务典型性敏感标签分类损失函数LT:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011202867.7/2.html,转载请声明来源钻瓜专利网。