[发明专利]利用作为弱监督的神经任务表示的模型不可知跨语言转移中的计算需求的最小化在审
申请号: | 201980067534.7 | 申请日: | 2019-10-11 |
公开(公告)号: | CN112840344A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | S·K·乔哈尔;M·盖蒙;P·潘特尔 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/20 | 分类号: | G06F40/20;G06N7/00;G06N3/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 姚杰 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 作为 监督 神经 任务 表示 模型 不可知 语言 转移 中的 计算 需求 最小化 | ||
一种用于将神经模型从第一语言转移为第二语言的任务不可知框架,该框架可以通过仅依赖于第一语言的标记的数据集合、两种语言之间的并行数据集合、标记的损失函数和未标记的损失函数来准确地形成第二语言的模型中的预测,来将计算和货币成本最小化。模型可以被联合训练,或在两阶段过程中被训练。
技术领域
本主题技术总体上涉及将神经模型从一种语言转移为第二种语言的神经模型。更具体地,本主题技术涉及利用作为弱监督的表示投影将神经模型从一种语言转移为第二种语言。
背景技术
目前,自然语言处理在很大程度上以英语为中心,而对用英语以外的其他语言工作的模型的需求比以往任意时候都大。然而,将模型从一种语言转移为另一种语言的任务可能会很昂贵:就诸如注释成本、工程时间和工作量等因素而言。
在自然语言处理(NLP)和深度学习中的当前研究已经产生了可以在诸如语音识别和机器翻译等几个关键研究领域实现人文均等(human parity)的系统。也就是说,这些系统在与人类相同或比人类更高的级别执行。然而,许多这种研究围绕以英语为中心的模型、方法和数据集合进行。
据估计,只有大约3.5亿人是以英语为母语的人,而另有5亿到10亿人将英语作为第二语言。这最多占世界人口的20%。随着语言技术进入人们的数字生活,需要能够理解世界上其他80%的NLP应用。然而,从头开始构建这样的系统可能是昂贵的、耗时的并且在技术上具有挑战性。
发明内容
根据本技术的一个方面,一种用于跨语言神经模型转移的方法可以包括:基于标记的损失函数,在第一语言的注释的数据上训练具有多个层的第一语言的第一神经模型,其中对第一神经模型的训练包括定义和更新第一神经模型的层中的每层的参数;以及基于未标记的损失函数在第一语言和第二语言之间的并行数据上训练具有多个层的第二语言的第二神经模型,其中第二神经模型的训练包括复制第一神经模型的除最低层之外的所有层,以及定义和更新第二神经模型的最低层的参数。
训练可以是两阶段的训练过程,其中在第二模型的训练之前先对第一模型进行完全训练,或者替代地在联合训练过程中,可以在对第一模型的初始训练之后共同训练第一模型和第二模型两者。
以下描述和附图详细阐述了所要求保护的主题的某些示意性方面。然而,这些方面仅指示可以采用本发明原理的各种方式中的几种,并且所要求保护的主题旨在包括所有这些方面及其等同物。当结合附图考虑时,根据本发明的以下详细描述,所要求保护的主题的其他优点和新颖特征将变得显而易见。
附图说明
参考以下附图描述了非限制性和非穷举性示例。
图1示出了根据实施例的用于跨语言神经模型转移的框架;
图2示出了根据实施例的神经模型架构;
图3示出了根据实施例的描绘用于跨语言神经模型转移的方法的流程图;
图4示出了根据另一实施例的描绘用于跨语言神经模型转移的方法的流程图;
图5示出了在其中实施例可以被实现的计算机系统的示例性框图。
具体实施方式
在下面的具体实施方式中,参考形成其一部分的附图,并且在附图中通过图示的方式示出了特定实施例或示例。在不脱离本公开的情况下,可以组合这些方面,可以利用其他方面,并且可以进行结构上的改变。实施例可以被实践为方法、系统或设备。因此,实施例可以采取硬件实现、完全软件实现或结合软件和硬件方面的实现的形式。因此,以下详细描述不应被理解为限制性的,并且本公开的范围由所附权利要求及其等同物来限定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980067534.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于更换斗轮的设备和方法
- 下一篇:用于生成对象的正交视图的方法