[发明专利]训练神经网络以生成结构化嵌入在审

申请号：	202080067395.0	申请日：	2020-09-25
公开（公告）号：	CN114450694A	公开（公告）日：	2022-05-06
发明（设计）人：	罗伯特·安德鲁·詹姆斯·克拉克;詹竣安;文森特·炳·亮·尹	申请（专利权）人：	谷歌有限责任公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	周亚荣;邓聪惠
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练神经网络生成结构嵌入
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种训练机器学习模型(108)以生成到所述机器学习模型(108)的输入嵌入的方法(200)，所述机器学习模型(108)具有编码器(110)和解码器(120)，其中所述编码器(110)从所述输入生成所述嵌入，所述解码器(120)从所生成的嵌入生成输出，其中，所述嵌入(106)被分区成嵌入分区(106)的序列，所述嵌入分区(106)各自包括所述嵌入(106)的一个或多个维度，所述方法(200)包括：

对于嵌入分区(106)的序列中的第一嵌入分区(106A)：

执行初始训练以训练所述编码器(110)和与所述第一嵌入分区(106A)相对应的解码器副本(122)，其中，在所述初始训练期间所述解码器副本(122)接收第一掩蔽嵌入(106)作为输入(102)，所述第一掩蔽嵌入(106)包括(i)由所述编码器(110)针对所述第一嵌入分区(106A)生成的值、以及(ii)针对所述序列中的所有后续嵌入分区(106)的遮蔽值；以及

对于在嵌入分区(106)的序列中的所述第一嵌入分区(106A)之后的每个特定嵌入分区(106)：

执行增量训练以训练所述编码器(110)和与所述特定分区相对应的解码器副本(122)，其中，在所述增量训练期间与所述特定分区相对应的所述解码器副本(122)接收针对所述特定分区的增量掩蔽嵌入(106)作为输入(102)，所述增量掩蔽嵌入(106)包括(i)由所述编码器(110)针对所述特定嵌入分区(106)和在所述序列中的所述特定嵌入分区(106)之前的每个嵌入分区(106)生成的值、以及(ii)针对在所述序列中的所述特定嵌入分区(106)之后的任何后续嵌入分区(106)的遮蔽值。

2.根据权利要求1所述的方法(200)，其中，执行增量训练还包括，针对在所述序列中的所述特定嵌入分区(106)之前的每个在前嵌入分区(106)，训练所述编码器(110)和与所述在前嵌入分区(106)相对应的解码器副本(122)，其中，在所述增量训练期间所述解码器副本(122)接收针对所述在前分区的增量掩蔽嵌入(106)作为输入(102)。

3.根据权利要求2所述的方法(200)，其中，在所述增量训练期间，与所述特定分区和所述在前分区相对应的所述解码器副本(122)的参数被约束成具有相同的值。

4.根据权利要求1-3中的任一项所述的方法(200)，其中，执行初始训练以训练所述编码器(110)和与所述第一嵌入分区(106A)相对应的解码器副本(122)包括：

相对于由所述解码器副本(122)生成的输出(112)确定目标函数的梯度(142、144、146)；

将所述梯度(142、144、146)从所述解码器副本(122)仅反向传播到所述编码器(110)的生成所述第一嵌入分区(106A)的对应部分；以及

使用所述反向传播的梯度(142、144、146)来更新所述解码器副本(122)和所述编码器(110)的所述对应部分的相应参数值。

5.根据权利要求1-4中的任一项所述的方法(200)，其中，执行增量训练以训练所述编码器(110)和与所述特定分区相对应的解码器副本(122)包括：

相对于由所述解码器副本(122)生成的输出(112)确定目标函数的梯度(142、144、146)；

将所述梯度(142、144、146)从所述解码器副本(122)仅反向传播到所述编码器(110)的生成所述特定嵌入分区(106)的对应部分；以及

使用所述反向传播的梯度(142、144、146)来更新所述解码器副本(122)和所述编码器(110)的所述对应部分的相应参数值。

6.根据权利要求5所述的方法(200)，还包括：

确定所述目标函数的所述梯度(142、144、146)已收敛到预定值；以及

响应于所述确定，终止所述初始训练并且针对所述序列中的第二分区开始所述增量训练。