[发明专利]文本处理模型的训练方法、文本处理方法及装置在审
申请号: | 201910865963.0 | 申请日: | 2019-09-12 |
公开(公告)号: | CN112487182A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 尹伊淳;尚利峰;蒋欣;陈晓 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 张振;王君 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 模型 训练 方法 装置 | ||
本申请公开了人工智能领域中自然语言处理领域的文本处理模型的训练方法、文本方法以及装置,该训练方法包括:获取训练文本;将该训练文本分别输入老师模型与学生模型,得到该老师模型输出的样本数据与该学生模型输出的预测数据,其中,该老师模型与该学生模型分别包括输入层、一个或者多个中间层以及输出层,该样本数据包括该老师模型的中间层输出的样本语义特征以及输出层输出的样本标签,该预测数据包括该学生模型的中间层输出的预测语义特征以及输出层输出的预测标签;基于该样本数据以及该预测数据训练该学生模型的模型参数,得到目标学生模型。本申请的技术方案使得学生模型有效的进行知识迁移,从而提高学生模型的文本处理结果的准确率。
技术领域
本申请涉及自然语言处理领域,并且更具体地,涉及一种文本处理模型的训练方法、文本处理方法及装置。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
随着人工智能技术的不断发展,让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互,就需要系统能够识别出人类自然语言的具体含义。通常,系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。
目前,智能终端对部署的模型通常会有模型大小、运行时间等需求,现有的预训练语言模型参数量较大、推断时间长,难以满足智能终端的部署要求。知识蒸馏技术可以实现深度学习模型小型化、达到终端设备部署要求的关键技术。相较与量化、稀疏化等压缩技术,其不需要特定的硬件支持就能达到压缩模型的目的。例如,在自然语言处理(naturallanguage processing,NLP)领域中,知识蒸馏技术可以采用老师-学生模型学习的策略,其中,老师模型可以是指语义表征能力强、模型参数大,一般不能满足部署需求的模型;而学生模型可以是指语义表征能力弱、参数量少,能够直接部署在终端设备上的模型。通过训练学生模型可以使得学生模型学习模仿老师模型的行为,进行有效的知识迁移,使得学生模型能够具有与老师模型相同的语义表征能力。
因此,如何通过有效的训练方法使得预先训练的文本处理模型(例如,老师模型)迁移到小型化模型(例如,学生模型)成为了亟需解决的技术问题。
发明内容
本申请提供一种文本处理模型的训练方法、文本分类方法及装置,使得学生模型更加准确的学习老师模型的语义表征能力实现有效的知识迁移,从而提高学生模型的文本处理结果的准确率。
第一方面,提供了一种文本处理模型的训练方法,包括:获取训练文本;将所述训练文本分别输入老师模型与学生模型,得到所述老师模型输出的样本数据与所述学生模型输出的预测数据,其中,所述老师模型与所述学生模型分别包括输入层、一个或者多个中间层以及输出层,所述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输出的样本标签,所述预测数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测标签,所述老师模型为预先训练的用于文本处理的模型;基于所述样本数据以及所述预测数据训练所述学生模型的模型参数,得到目标学生模型。
其中,上述用于文本处理的模型可以是用于文本分类的模型,或者,用于文本处理的模型可以是用于文本序列标注的模型,或者,用于文本处理模型可以是用于文本翻译的模型。应理解,上述用于文本处理的模型可以用于自然语言处理任务,本申请实施例并不限定上述用于文本处理的模型的具体实现形式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910865963.0/2.html,转载请声明来源钻瓜专利网。