[发明专利]多语言BERT序列标注模型的压缩方法及系统有效
申请号: | 202011490078.8 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112613273B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 撖朝润;李琦;傅洛伊;王新兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/242;G06F40/289;G06F40/295 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 bert 序列 标注 模型 压缩 方法 系统 | ||
本发明提供了多语言BERT序列标注模型的压缩方法及系统,涉及BERT类模型的知识蒸馏技术领域,该方法包括:步骤1:基于Wordpiece算法从多语语料中抽取词表;步骤2:对多/单语言BERT教师模型、多语言BERT学生模型进行预训练;步骤3:基于人工标注的下游任务数据对多/单语言BERT教师模型进行微调;步骤4:利用多/单语言BERT教师模型对预训练后的多语言BERT学生模型进行残差知识蒸馏;步骤5:基于人工标注的下游任务数据对蒸馏后的多语言BERT学生模型进行微调。本发明通过残差学习和多对一的知识蒸馏方式,提高了学生模型的准确率和泛化程度,降低了多语言环境下BERT类序列标注模型部署所需的硬件资源。
技术领域
本发明涉及BERT类模型的知识蒸馏技术领域,具体地,涉及多语言BERT序列标注模型的压缩方法及系统。
背景技术
BERT是一种基于Transformers编码器的大规模预训练语言模型。近年来,BERT在很多下游任务上都展现出了强大的实力。序列标注是一类为序列中的元素进行分类的任务,常见的序列标注任务包括命名实体识别、词性标注等等。在多语言环境下,如果同时使用多个单语言BERT模型分别为不同的语言文本建模,会占用极大的计算资源;同时对于一些训练语料匮乏的语言类别,无论是BERT还是传统模型都很难达到很好的效果。多语言BERT可以通过共享词表和共同训练的方式同时对上百种语言进行建模,在节省资源的同时提高了多语言环境下BERT模型的整体效果。
虽然多语言BERT模型在序列标注任务上可以达到出色的效果,但是单个BERT模型的推理速度仍然受限于其庞大的模型规模。为了在低延时的应用场景下使用多语言BERT解决序列标注问题,业界常常会使用知识蒸馏等方法对BERT模型进行压缩。知识蒸馏技术是一种将教师模型在下游任务中学习到的知识引入到学生模型中的方法,该方法首先通过教师模型在无标签的蒸馏语料上进行推理得到对应的软标签,然后令学生模型在同样的数据上拟合教师模型的输出,达到提高学生模型预测准确率的目标,从而在实际部署中,可以用规模更小、速度更快的学生模型替代教师模型。
针对上述现有技术,存在以下技术缺陷,在相关技术中针对多语言BERT序列标注模型的知识蒸馏技术都采用一对一的训练方式,即从多语言BERT教师模型蒸馏到多语言BERT学生模型,这类方法没有考虑到多语言BERT模型并不是在所有的语言类别上都优于单语言BERT模型;另外,由于学生模型和教师模型在结构复杂度方面还是存在较大的区别,导致单个学生模型无法有效拟合教师模型的输出。
发明内容
针对现有技术中的缺陷,本发明的目的是提供多语言BERT序列标注模型的压缩方法及系统,通过多/单语言教师模型混合和残差学习的方式,提高多语言背景下BERT序列标注模型的知识蒸馏效果。
根据本发明提供的多语言BERT序列标注模型的压缩方法,所述方案如下:
第一方面,提供了多语言BERT序列标注模型的压缩方法,所述方法包括:
基于Wordpiece算法从多语语料中抽取词表;
将词表作为训练数据,对多/单语言BERT教师模型、多语言BERT学生模型进行预训练;
基于人工标注的下游任务数据对多/单语言BERT教师模型进行微调;
利用多/单语言BERT教师模型对预训练后的多语言BERT学生模型进行残差知识蒸馏;
基于人工标注的下游任务数据对蒸馏后的多语言BERT学生模型进行微调。
优选的,所述基于Wordpiece算法从多语语料中抽取词表包括:
初始化词表为多语语料中的所有字符;
对多语语料进行分词并统计词表中的所有元素对出现的频率;
根据似然公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011490078.8/2.html,转载请声明来源钻瓜专利网。