[发明专利]键值记忆网络在审
申请号: | 201880048452.3 | 申请日: | 2018-06-07 |
公开(公告)号: | CN110945500A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 亚历山大·霍顿·米勒;亚当·约书亚·费什;杰西·迪恩·道奇;阿米尔-侯赛因·卡里米;安托万·博尔德;詹森·E·韦斯顿 | 申请(专利权)人: | 脸谱公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 周靖;杨明钊 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 键值 记忆 网络 | ||
1.一种方法,所述方法包括由计算设备:
接收输入;
生成表示所述输入的第一查询向量表示;
生成与键值记忆集合相关联的第一相关性度量,每个键值记忆具有相关联的键和相关联的值,其中,基于所述第一查询向量表示与键向量表示之间的比较来生成所述第一相关性度量,所述键向量表示用于表示与所述键值记忆集合相关联的键;
基于(1)所述键值记忆集合的第一相关性度量和(2)表示与所述键值记忆集合相关联的值的值向量表示,生成第一聚合结果;
通过迭代过程,使用最终查询向量表示来生成最终聚合结果,其中,所述迭代过程中的初始迭代包括:
基于所述第一查询向量表示、所述第一聚合结果和第一机器学习模型来生成第二查询向量表示;
使用所述第二查询向量表示来生成与所述键值记忆集合相关联的第二相关性度量;以及
使用所述第二相关性度量来生成第二聚合结果;
基于所述最终聚合结果和所述最终查询向量表示来生成组合特征表示;以及
响应于所述输入,基于所述组合特征表示与候选输出集合之间的比较来选择输出。
2.根据权利要求1所述的方法,其中,在所述初始迭代之后,所述迭代过程的每个后续迭代包括:
基于(1)在前一次迭代中生成的前一次迭代查询向量表示、(2)在所述前一次迭代中生成的前一次迭代聚合结果和(3)当前迭代机器学习模型,生成当前迭代查询向量表示;
通过比较所述当前迭代查询向量表示和所述键向量表示来生成当前迭代相关性度量;以及
基于所述当前迭代相关性度量和所述值向量表示来生成当前迭代聚合结果。
3.根据权利要求2所述的方法,
其中,使用训练样本集合来训练所述第一机器学习模型和所述迭代过程中每个后续迭代的当前迭代机器学习模型,每个训练样本包括训练输入和目标输出。
4.根据权利要求1所述的方法,其中,所述输入是问题并且所述输出是所述问题的答案。
5.根据权利要求1所述的方法,还包括:
基于所述输入来选择所述键值记忆集合。
6.根据权利要求1所述的方法,其中,所述第一查询向量表示、所述键向量表示和所述值向量表示中的每一个都是嵌入。
7.根据权利要求1所述的方法,
其中,使用第二机器学习模型和所述输入来生成所述第一查询向量表示;
其中,使用所述第二机器学习模型和相关联的键来生成所述键向量表示中的每一个;并且
其中,使用所述第二机器学习模型和相关联的值来生成所述值向量表示中的每一个。
8.根据权利要求7所述的方法,
其中,使用训练样本集合来迭代地训练所述第一机器学习模型和所述第二机器学习模型,每个训练样本包括训练输入和目标输出;
其中,对于所述训练样本集合中的每个训练样本,基于(1)响应于该训练样本的训练输入而选择的训练输出与(2)该训练样本的目标输出之间的比较,更新所述第一机器学习模型和所述第二机器学习模型。
9.根据权利要求7所述的方法,其中,所述第一机器学习模型或所述第二机器学习模型是使用机器学习算法生成的矩阵。
10.根据权利要求1所述的方法,其中,所述键值记忆集合中的每个键值记忆的第一相关性度量是概率。
11.根据权利要求1所述的方法,其中,所述第一聚合结果是所述值向量表示的加权和,所述值向量表示以它们各自相关联的第一相关性度量进行加权。
12.根据权利要求1所述的方法,其中,所述候选输出集合中的每一个候选输出是使用第二机器学习模型生成的、相关联的候选文本输出的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于脸谱公司,未经脸谱公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880048452.3/1.html,转载请声明来源钻瓜专利网。