[发明专利]一种结合动态词汇增强的模型蒸馏方法有效
申请号: | 202110309962.5 | 申请日: | 2021-03-24 |
公开(公告)号: | CN112699678B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 顾嘉晟;李瀚清;岳小龙;高翔;纪达麒;陈运文 | 申请(专利权)人: | 达而观数据(成都)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/242;G06N20/00 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 610015 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 动态 词汇 增强 模型 蒸馏 方法 | ||
本发明涉及人工智能领域中的自然语言处理技术领域,公开了一种结合动态词汇增强的模型蒸馏方法,包括:在ALBert语言模型的基础上,通过微调技术结合动态词汇增强技术对语言模型进行调整,得到微调后的语言模型,将其作为教师模型;在对语言模型进行微调时,不同于常规的微调逻辑,在微调过程中,先将词典信息的特征与语言模型的输出特征进行合并,然后再进行微调;微调结束后,对教师模型进行蒸馏,将获取的模型预测结果作为学生模型的训练依据。本发明提供的模型蒸馏方法,通过引入词典信息作为关键信息,使得模型在大幅缩减尺寸的情况下仍然可以捕获词典信息作为特征,从而达到在不牺牲抽取准确性的情况下大幅降低模型尺寸、加快推断速度的目的。
技术领域
本发明涉及人工智能领域中的自然语言处理技术领域,尤其涉及一种结合动态词汇增强的模型蒸馏方法。
背景技术
文本关键信息抽取是自然语言处理领域中最常见的一项任务。近些年自从Bert出现后,基于Transformer机制的模型层出不穷,从Bert到RoBERTa,再到XLNet、GPT-3等模型不断刷新着关键信息提取任务的准确率。然而在NLP任务实际落地时,企业考虑到成本、效率等因素,往往会使用高并发模型部署的技术架构,而大尺寸的模型在多副本的体系中意味着占用大量的GPU资源。企业追求的往往不是最高的准确率,而是在准确率和推断速度中得到最好的权衡。这使得这些在学术界一再刷新纪录的模型在工业落地中确面临着极大的问题:模型尺寸过大,参数过多,从而导致模型训练过程太过耗费资源,同时模型推断也过于依赖高配置设备,推断速度过慢等。
近些年逐渐有企业意识到模型落地难,成本高昂的问题,也在尝试使用各种方法尝试降低模型尺寸。例如华为在今年10月发布的TinyBert[1],通过对Bert模型实现蒸馏,模型缩小了7.5倍,实现了9.4倍的推断提速,然而模型准确率却下降了3.2%,其原因是在迁移学习过程中,丢失了一定的语义信息。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供了一种结合动态词汇增强的模型蒸馏方法,该方法在模型微调的过程中通过增加词典信息来降低模型尺寸并提升模型准确率,结合动态词汇增强技术实现模型蒸馏。
本发明采用的技术方案如下:一种结合动态词汇增强的模型蒸馏方法,包括以下步骤:
步骤1:在ALBert语言模型的基础上,通过微调技术结合动态词汇增强技术对语言模型进行调整,得到微调后的语言模型,将其作为教师模型;
其中,动态词汇增强技术通过在教师模型的网络结构中添加词典信息实现;而所述词典信息为针对不同的专业领域而收集的相应的专业信息构成的信息集合。
在对语言模型进行微调时,不同于常规的微调逻辑,在微调过程中,先将词典信息的特征与语言模型的输出特征进行合并,然后再进行微调。
步骤2:对教师模型进行蒸馏,将获取的模型预测结果作为学生模型的训练依据。
在该过程中,首先将语言模型的输出特征与词典信息的特征合并为embedding向量,再将embedding向量输入至教师模型的全连接层,通过该全连接层对embedding向量进行降维操作,然后再连接进条件随机场,通过条件随机场对教师模型中的原句的每个token做出预测,将该预测结果作为学生模型的训练依据。
进一步的,在对教师模型进行蒸馏的过程中,还包括计算蒸馏过程中的损失值,其具体过程如下:通过计算教师模型和学生模型之间预测值的差,将两者预测值的差和学生模型的损失值加在一起来计算整个蒸馏过程的损失值,从而实现蒸馏过程中损失值的梯度更新。
与现有技术相比,采用上述技术方案的有益效果为:
1.通过在模型结构中引入词典信息,可以弥补无监督语言模型语义理解不够精准的问题。该种方式无需对语料分词,只需通过匹配信息讲词语的embedding合并进Bert语言模型的输出即可,在为模型增加语义信息的同时也不会增加模型计算的负担。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观数据(成都)有限公司,未经达而观数据(成都)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110309962.5/2.html,转载请声明来源钻瓜专利网。