[发明专利]用于自然语言理解的神经网络的压缩在审
申请号: | 202010907744.7 | 申请日: | 2020-09-02 |
公开(公告)号: | CN112487783A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | M·E·约翰逊 | 申请(专利权)人: | 甲骨文国际公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/30;G06N3/04;G06N3/08;G06N20/00;G10L15/22 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 魏小薇;吴丽丽 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 自然语言 理解 神经网络 压缩 | ||
本公开涉及一种用于自然语言理解的神经网络的压缩。基于由标记模型生成的标记的数据生成一种用于自然语言理解任务的模型。用于所述自然语言理解任务的所述模型小于所述标记模型(即,具有比组合模型更低的计算需求和存储器需求),但是具有与所述标记模型基本上相同的性能。在一些情况下,所述标记模型可以基于大型预训练模型来生成。
相关申请的交叉引用
本申请根据35U.S.C.119(e)要求于2019年9月12日提交的名称为“COMPRESSINGRECURRENT NEURAL NETWORKS USED IN NATURAL LANGUAGE UNDERSTANDING(在自然语言理解中使用的递归神经网络的压缩)”的美国申请62/899,650和于2020年7月24日提交的名称为“COMPRESSING NEURAL NETWORKS FOR NATURAL LANGUAGE UNDERSTANDING(用于自然语言理解的神经网络的压缩)”的美国申请16/938,098的权益和优先权,所述美国申请的全部内容出于所有目的通过引用以其全文并入本文。
技术领域
本公开总体涉及对话系统和机器学习。更具体地但不以非限制性的方式,本公开描述了用于使用相对较大的模型来生成大量标记的会话数据的技术,该大量标记的会话数据用于训练用于执行自然语言理解任务的相对较小的模型。
背景技术
现在,越来越多的设备使得用户能够直接使用话音或口述语音与设备进行交互。例如,用户可以以自然语言对这种设备说话,其中,用户可以询问问题或进行请求要执行某个动作的陈述。作为响应,设备执行所请求的动作或使用话音输出来对用户的问题作出响应。由于直接使用话音进行交互对人类来说是与其周围环境进行交流的更自然且更直观的方式,因此,这种基于语音的系统的普及正以极大的速率增长。
通过可以处于设备中的对话系统(有时也被称为聊天机器人或数字助理)促进了使用口述语音与设备进行交互的能力。对话系统通常使用机器学习模型来执行一系列对话处理任务。对话处理模型通常是大型、复杂的模型。这种复杂的模型通常在运行时执行缓慢,并且可能非常大(例如,预训练模型可能需要大量的存储资源和处理资源,有时达到这种模型必须容纳在超级计算机或多个服务器上的程度)。这使得难以将这种对话系统并入到低功率且资源匮乏的设备(例如,厨房电器、照明装置等)中。
发明内容
本公开总体涉及自然语言理解。更具体地,描述了用于压缩用于在自然语言理解任务中使用的递归神经网络的技术。本文描述了各种实施例,包括方法、系统、存储有由一个或多个处理器可执行的程序、代码或指令的非暂态计算机可读存储介质等。
在某些实施例中,一种用于训练神经网络以执行自然语言理解任务的方法包括:获得第一标记的会话数据;使用所述第一标记的会话数据来训练第一神经网络;获得第一未标记的会话数据;对所述第一未标记的会话数据执行经训练的第一神经网络以标记所述第一未标记的会话数据,从而生成第二标记的会话数据;以及使用所述第二标记的会话数据来训练用于执行自然语言理解任务的第二神经网络。
在一些方面,在训练所述第一神经网络之前,所述方法进一步包括:获得第二未标记的会话数据;使用所述第二未标记的会话数据来训练第三神经网络以执行代理任务;以及基于所述第三神经网络生成所述第一神经网络。在一些方面,基于所述第三神经网络生成所述第一神经网络包括构建所述第一神经网络以包括所述第三神经网络的至少一部分。在一些方面,所述第三神经网络是所述第一神经网络的组件。在一些方面,所述代理任务包括预测语言任务。
在一些方面,所述自然语言理解任务包括语义解析、意图分类或命名实体分类中的一个或多个。在一些方面,训练所述第二神经网络包括:对于所述第二标记的会话数据的第一训练输入,由所述第二神经网络输出预测输出;计算测量所述预测输出与和所述第一训练输入相关联的第一标签之间的误差的损失;基于所述损失,计算所述第二神经网络的第一组参数的更新值;以及通过将所述第一组参数的值改变为所述更新值来更新所述第二神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨文国际公司,未经甲骨文国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010907744.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:激光投影装置及合光透镜
- 下一篇:无轴线性振动马达