[发明专利]针对预训练语言模型BERT的知识蒸馏方法、装置及系统在审

申请号：	202011396369.0	申请日：	2020-12-03
公开（公告）号：	CN112347763A	公开（公告）日：	2021-02-09
发明（设计）人：	姜珊	申请（专利权）人：	云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
主分类号：	G06F40/211	分类号：	G06F40/211;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100096 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	针对训练语言模型 bert 知识蒸馏方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了针对预训练语言模型BERT的知识蒸馏方法、装置及系统，包括蒸馏训练阶段和微调测试阶段；其中，所述蒸馏训练阶段包括：获取无标签文本；利用BERT模型编码，获取所述无标签文本的BERT句向量；利用BiLSTM模型编码，获取所述无标签文本的BiLSTM句向量；基于所述BERT句向量和所述BiLSTM句向量，训练获得最佳BiLSTM模型；所述微调测试阶段包括：将有标签数据集输入最佳BiLSTM模型，进行微调训练；将测试集输入微调后的BiLSTM模型，计算输出结果。本发明采用“先蒸馏，后微调”的方法，解决了预训练语言模型BERT参数多，结构复杂，难以工程化部署的问题。

技术领域

本发明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种针对预训练语言模型BERT的知识蒸馏方法、装置及系统。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

随着人工智能识别的发展，普遍采用模型进行数据处理、图像识别等，而BERT模型是利用大规模无标注语料训练的预训练语言模型，通过微调处理下游任务，知识蒸馏是一种常用的模型压缩方法，在“教师-学生”框架中，将复杂的教师模型学到的特征作为“知识”传递给简单的学生模型，提高学生模型的性能。

BERT模型常见的知识蒸馏方法是在特定任务中先微调模型，然后再进行蒸馏操作，将同领域大规模无标签数据，输入微调好的模型进行离线预测，计算软标签，供学生模型学习。

但存在如下技术问题：

BERT模型“先微调，后蒸馏”的方法，使学生模型丧失了微调能力。对于不同领域的下游任务，需要准备相应领域的无标签数据，分别进行蒸馏操作，训练过程繁琐；

当对应领域无标签数据不易获取时，学生模型学到的知识有限，蒸馏性能明显下降。

有鉴于此，亟需一种基于针对预训练语言模型BERT的知识蒸馏方法，解决预训练语言模型BERT参数多，结构复杂，难以工程化部署的问题。

发明内容

本说明书一个或多个实施例描述了针对预训练语言模型BERT的知识蒸馏方法、装置及系统，可解决目前技术中存在的预训练语言模型BERT参数多，结构复杂，难以工程化部署的问题。