[发明专利]用于神经网络的计算高效富于表达的输出层在审
申请号: | 202010403632.8 | 申请日: | 2020-05-13 |
公开(公告)号: | CN111832699A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 唐·明·良;国·V·勒;杨植麟 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 神经网络 计算 高效 富于 表达 输出 | ||
本公开涉及用于神经网络的计算高效富于表达的输出层。包括在计算机存储介质上编码的计算机程序的方法、系统和设备,用于将计算高效富于表达的输出层并入在神经网络中。所述输出层被配置成通过根据隐藏状态生成针对多个门中的每一个的相应的上下文嵌入来将接收到的隐藏状态映射到在可能输出的词汇上的概率分布;对于所述词汇中的所述可能输出中的每一个,通过将针对所述可能输出的输出嵌入应用于加权和来计算所述可能输出的门控logit;以及通过将softmax应用于所述词汇中的所述可能输出的所述门控logit来生成在可能输出的词汇上的概率分布。
技术领域
本说明书涉及使用神经网络生成输出。
背景技术
神经网络是采用一个或多个层的非线性单元来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层的输入,所述下一层即下一隐藏层或输出层。网络的每个层根据相应的参数集的当前值根据接收到的输入生成输出。
发明内容
本说明书描述一种实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统,该系统使用神经网络处理网络输入以生成网络输出。
特别地,所描述的系统采用包括一个或更多个初始神经网络层的神经网络。初始层接收网络输入并根据网络输入生成隐藏状态。
神经网络还包括计算效率高但表达能力强的输出层,该输出层接收隐藏状态并且然后将隐藏状态映射到在可能输出集合上的概率分布。所描述的输出层可以代替输出概率分布的常规输出层,例如,softmax层或混合softmax(Mixture of Softmaxes,MOS)层的。
可以实现本说明书中描述的主题的特定实施例以实现以下优点中的一个或多个。
Softmax已经是各种广泛的神经网络包括例如大多数神经语言模型和机器翻译模型的标准输出层。然而,Softmax是神经网络例如神经语言和机器翻译模型的表达能力的基础局限,因为它将由输出层生成的输出表示约束为低秩的,这可能不足以对自然语言或其它高度上下文相关的输出词汇(vocabulary)的复杂度进行建模。
为了对此进行改进,已经提出了生成更高秩输出表示的技术。这样的方法的一个示例是混合Softmax(MoS),所述MoS将离散的潜在变量引入到输出层中,使得由于log-sum-exp非线性变换,所以对数概率矩阵是高秩的。然而,MoS和其它提出的解决方案与Softmax相比在存储器和时间二者方面是计算昂贵的,这使它们在计算预算有限时变得几乎不太有用。
另一方面,所描述的输出层(称为“Mixtape”层)在仍然改进Softmax的表达能力的同时降低附加的计算成本。能够将所描述的输出层作为附加层插入到任何现有网络中,即,在生成隐藏状态的初始层之后并且代替现有网络的常规输出层。
不是如在MoS中一样在概率空间中采用标量混合,而是Mixtape在logit空间中应用向量门控机制,以避免使用多个计算昂贵的Softmax。
此外,在一些实施方式中Mixtape还使用一种或多种其它技术来降低计算成本。
首先,由于需要为词汇中的每个单词计算Softmax门以生成用于向量门控的概率,所以向量门控机制可能是计算昂贵的。这能够通过使用S形树分解来减轻,所述S形树分解将Softmax概率门控分布分解成二叉树结构,其中每个分支承载由S形函数确定的概率质量的一部分。使用S形树分解来计算概率是计算高效得多,因为它避免了无论是在软件中还是在专用硬件上执行起来计算昂贵的Softmax中的归约运算和除法运算。
其次,能够采用门共享来为所有不频繁的输出共享门值,从而产生部分高秩表示。此技术节约了大量的存储器和计算,即,因为需要为所有不频繁的输出计算和存储仅单个门值,而不影响Mixtape层的性能,因为即使在不共享门的情况下,不频繁的输出的门值也通常难以准确地估计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010403632.8/2.html,转载请声明来源钻瓜专利网。