[发明专利]针对预训练语言模型BERT的知识蒸馏方法、装置及系统在审
申请号: | 202011396369.0 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112347763A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 姜珊 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 训练 语言 模型 bert 知识 蒸馏 方法 装置 系统 | ||
本发明提供了针对预训练语言模型BERT的知识蒸馏方法、装置及系统,包括蒸馏训练阶段和微调测试阶段;其中,所述蒸馏训练阶段包括:获取无标签文本;利用BERT模型编码,获取所述无标签文本的BERT句向量;利用BiLSTM模型编码,获取所述无标签文本的BiLSTM句向量;基于所述BERT句向量和所述BiLSTM句向量,训练获得最佳BiLSTM模型;所述微调测试阶段包括:将有标签数据集输入最佳BiLSTM模型,进行微调训练;将测试集输入微调后的BiLSTM模型,计算输出结果。本发明采用“先蒸馏,后微调”的方法,解决了预训练语言模型BERT参数多,结构复杂,难以工程化部署的问题。
技术领域
本发明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种针对预训练语言模型BERT的知识蒸馏方法、装置及系统。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
随着人工智能识别的发展,普遍采用模型进行数据处理、图像识别等,而BERT模型是利用大规模无标注语料训练的预训练语言模型,通过微调处理下游任务,知识蒸馏是一种常用的模型压缩方法,在“教师-学生”框架中,将复杂的教师模型学到的特征作为“知识”传递给简单的学生模型,提高学生模型的性能。
BERT模型常见的知识蒸馏方法是在特定任务中先微调模型,然后再进行蒸馏操作,将同领域大规模无标签数据,输入微调好的模型进行离线预测,计算软标签,供学生模型学习。
但存在如下技术问题:
BERT模型“先微调,后蒸馏”的方法,使学生模型丧失了微调能力。对于不同领域的下游任务,需要准备相应领域的无标签数据,分别进行蒸馏操作,训练过程繁琐;
当对应领域无标签数据不易获取时,学生模型学到的知识有限,蒸馏性能明显下降。
有鉴于此,亟需一种基于针对预训练语言模型BERT的知识蒸馏方法,解决预训练语言模型BERT参数多,结构复杂,难以工程化部署的问题。
发明内容
本说明书一个或多个实施例描述了针对预训练语言模型BERT的知识蒸馏方法、装置及系统,可解决目前技术中存在的预训练语言模型BERT参数多,结构复杂,难以工程化部署的问题。
本说明书一个或多个实施例提供的技术方案如下:
第一方面,本发明提供了针对预训练语言模型BERT的知识蒸馏方法,所述知识蒸馏方法包括蒸馏训练阶段和微调测试阶段;其中,
所述蒸馏训练阶段包括:
获取无标签文本;
利用BERT模型编码,获取所述无标签文本的BERT句向量;
利用BiLSTM模型编码,获取所述无标签文本的BiLSTM句向量;
基于所述BERT句向量和所述BiLSTM句向量,训练获得最佳BiLSTM模型;
所述微调测试阶段包括:
将有标签数据集输入最佳BiLSTM模型,进行微调训练;
将测试集输入微调后的BiLSTM模型,计算输出结果。
在一个可能的实现方式中,通过反向传播算法更新梯度训练并获得最佳BiLSTM模型。
在一个可能的实现方式中,利用BERT模型编码,获取所述无标签文本的[CLS]字符对应的向量作为BERT句向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011396369.0/2.html,转载请声明来源钻瓜专利网。