[发明专利]一种面向多任务语言模型的元-知识微调方法及平台有效
申请号: | 202011202867.7 | 申请日: | 2020-11-02 |
公开(公告)号: | CN112100383B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 王宏升;王恩平;单海军 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N5/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 任务 语言 模型 知识 微调 方法 平台 | ||
1.一种面向多任务语言模型的元-知识微调方法,其特征在于,包括以下几个阶段:
第一阶段,计算同类任务跨域数据集的类原型:从同一类任务的不同域的数据集中,集中学习该类任务对应域的原型的输入文本的嵌入特征,将同类任务不同域的所有输入文本的平均嵌入特征作为对应的同一类任务多域的类原型;
第二阶段,计算实例的典型性分数:实例由输入文本和类标签组成,针对多类任务对应的所有域,采用dself表示每个实例中输入文本的嵌入特征与自身域原型的距离,dothers表示每个实例中输入文本的嵌入特征与其它域原型的距离;每个实例的典型性分数定义为dself与dothers的线性组合;
第三阶段,基于典型性分数的元-知识微调网络:利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数,设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数;利用该损失函数训练得到多任务语言模型;
所述第一阶段中,采用表示在数据集的第k个域Dk中类标签为m的输入文本的集合:
其中,m∈M,M为数据集中所有类标签的集合;为第k个域中第i个实例;
类原型为第k个域中类标签为m所有输入文本的平均嵌入特征:
其中,ε(·)表示BERT模型输出的的嵌入表示;对于BERT模型,平均嵌入特征是输入对应的最后一层Transformer编码器的平均池化;
所述第二阶段中,将实例的典型性分数为:
其中,α是一个预定义的平衡因子,0α1;cos(·,·)是余弦相似性度量函数;K是域的个数,k=1~K;是指示函数,如果则返回1,如果则返回0;βm>0是的权重,同一类的权重相同;
所述第三阶段中,多任务典型性敏感标签分类损失函数LT:
其中,D表示所有域的集合;是指示函数,如果则返回1,如果则返回0;表示预测的类标签为m的概率;表示BERT模型最后一层输出的token的嵌入层特征。
2.一种基于权利要求1所述面向多任务语言模型的元-知识微调方法的平台,其特征在于,包括以下组件:
数据加载组件:用于获取面向多任务的预训练语言模型的训练样本,所述训练样本是满足监督学习任务的有标签的文本样本;
自动压缩组件:用于将面向多任务的预训练语言模型自动压缩,包括预训练语言模型和元-知识微调模块;其中,所述元-知识微调模块用于在自动压缩组件生成的预训练语言模型上构建下游任务网络,利用典型性分数的元-知识对下游任务场景进行微调,输出最终微调好的压缩模型;将压缩模型输出到指定的容器,供登陆用户下载,并呈现压缩前后模型大小的对比信息;
推理组件:登陆用户从平台获取预训练语言模型压缩模型,用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理,并呈现压缩前后推理速度的对比信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011202867.7/1.html,转载请声明来源钻瓜专利网。