[发明专利]训练神经网络以生成结构化嵌入在审
申请号: | 202080067395.0 | 申请日: | 2020-09-25 |
公开(公告)号: | CN114450694A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 罗伯特·安德鲁·詹姆斯·克拉克;詹竣安;文森特·炳·亮·尹 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 神经网络 生成 结构 嵌入 | ||
一种用于训练机器学习模型(108)以生成该机器学习模型的输入的嵌入(106)的方法(200),该机器学习模型具有编码器(110)和解码器(120),其中该编码器(110)从输入生成嵌入,该解码器(120)从所生成的嵌入生成输出,其中,嵌入被分区成嵌入分区的序列,所述嵌入分区各自包括嵌入的一个或多个维度。该方法包括:对于嵌入分区的序列中的第一嵌入分区(106A):执行初始训练以训练编码器和与第一嵌入分区相对应的解码器副本(122);对于在嵌入分区的序列中的第一嵌入分区之后的每个特定嵌入分区:执行增量训练以训练编码器和与特定分区相对应的解码器副本。
技术领域
本说明书涉及训练神经网络。
背景技术
神经网络是采用一个或多个非线性单元层来针对接收到的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层即下一隐藏层或输出层的输入。网络的每个层根据相应参数集的当前值从接收到的输入生成输出。
发明内容
本说明书描述与训练编码器-解码器引擎以生成能够稍后被以直观方式修改的结构化嵌入相关的技术。
通常,本说明书中描述的主题的一个创新方面能够被体现在由一个或多个计算机执行以便训练机器学习模型以生成到该机器学习模型的输入嵌入的方法中,所述机器学习模型具有编码器和解码器,其中所述编码器从所述输入生成所述嵌入,所述解码器从所生成的嵌入生成输出,其中,所述嵌入被分区成(be partitioned into)嵌入分区的序列(asequence of embedding partitions),所述嵌入分区各自包括所述嵌入的一个或多个维度,所述方法包括:对于嵌入分区的序列中的第一嵌入分区:执行初始训练以训练所述编码器和与所述第一嵌入分区相对应的解码器副本,其中,在所述初始训练期间所述解码器副本接收第一掩蔽嵌入作为输入,所述第一掩蔽嵌入包括(i)由所述编码器针对所述第一嵌入分区生成的值、以及(ii)针对所述序列中的所有后续嵌入分区的遮蔽值;以及对于在嵌入分区的序列中的所述第一嵌入分区之后的每个特定嵌入分区:执行增量训练以训练所述编码器和与所述特定分区相对应的解码器副本,其中,在所述增量训练期间与所述特定分区相对应的所述解码器副本接收针对所述特定分区的增量掩蔽嵌入作为输入,所述增量掩蔽嵌入包括(i)由所述编码器针对所述特定嵌入分区和在所述序列中的所述特定嵌入分区之前的每个嵌入分区生成的值、以及(ii)针对在所述序列中的所述特定嵌入分区之后的任何后续嵌入分区的遮蔽值。此方面的其它实施例包括对应的系统、装置、以及在计算机存储设备上编码的被配置成执行所述方法的动作的计算机程序。
在一些实现方式中,执行增量训练还包括,针对在序列中的特定嵌入分区之前的每个在前嵌入分区,训练编码器和与在前嵌入分区相对应的解码器副本,其中,在增量训练期间解码器副本接收针对在前分区的增量掩蔽嵌入作为输入。
在一些实现方式中,在增量训练期间,与特定分区和在前分区相对应的解码器副本的参数被约束成具有相同的值。
在一些实现方式中,执行初始训练以训练编码器和与第一嵌入分区相对应的解码器副本包括:相对于由解码器副本生成的输出确定目标函数的梯度;将梯度从解码器副本仅反向传播到编码器的生成第一嵌入分区的对应部分;以及使用反向传播的梯度来更新解码器副本和编码器的对应部分的相应参数值。
在一些实现方式中,执行增量训练以训练编码器和与特定分区相对应的解码器副本包括:相对于由解码器副本生成的输出确定目标函数的梯度;将梯度从解码器副本仅反向传播到编码器的生成特定嵌入分区的对应部分;以及使用反向传播的梯度来更新解码器副本和编码器的对应部分的相应参数值。
在一些实现方式中,该方法还包括:确定目标函数的梯度已收敛到预定值;以及响应于确定,终止初始训练并且针对序列中的第二分区开始增量训练。
在一些实现方式中,针对序列中的所有后续嵌入分区的遮蔽值是零。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080067395.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:装饰片以及使用了该装饰片的装饰材料
- 下一篇:药物递送装置