[发明专利]处理文本神经网络有效
申请号: | 201910134308.8 | 申请日: | 2019-02-22 |
公开(公告)号: | CN109885842B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 杰米·瑞安·基罗斯;威廉·常;杰弗里·E·欣顿 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/0464;G06N3/0442;G06N3/045;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;安翔 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 文本 神经网络 | ||
1.一种生成数据集的方法,所述数据集使文本分段的词汇表中的每个文本分段与相应的数字嵌入相关联,所述方法包括,针对文本分段的词汇表中的每个文本分段:
向图像搜索引擎提供包括所述文本分段的搜索查询;
获得已由所述图像搜索引擎分类为是响应于所述搜索查询的多个图像搜索结果,其中,每个图像搜索结果识别相应的图像;
针对每个图像搜索结果,使用卷积神经网络来处理该图像搜索结果所识别的图像,其中,所述卷积神经网络已被训练来处理所述图像以生成用于所述图像的图像数字嵌入;以及
从用于由所述多个图像搜索结果所识别的各个图像的相应的图像数字嵌入生成用于所述文本分段的数字嵌入。
2.根据权利要求1所述的方法,其中,所述多个图像搜索结果由所述图像搜索引擎从最具响应性到最不具响应性进行排序,并且其中,所述方法进一步包括:
根据对所述多个图像搜索结果的所述排序来级联用于所述多个图像搜索结果所识别的各个图像的相应的图像数字嵌入。
3.根据权利要求1所述的方法,其中,所述卷积神经网络已经在语义排名目标上被训练以生成保存输入图像之间的语义相似性的图像数字嵌入。
4.根据权利要求1所述的方法,其中,获得所述多个图像搜索结果包括:
从所述图像搜索引擎获得由所述图像搜索引擎从最具响应性到最不具响应性进行排序的图像搜索结果的初始集;以及
根据所述排序来选择对于所述搜索查询最具响应性的图像搜索结果的所述初始集的子集。
5.根据权利要求1至4中的任一项所述的方法,其中,所述词汇表中的所述文本分段包括单词。
6.根据权利要求1至4中任一项所述的方法,其中,所述词汇表中的所述文本分段包括一个或多个多单词短语。
7.一种用于生成文本分段的数字嵌入的方法,包括:
维护为文本分段的词汇表中的每个文本分段指定相应的第一数字嵌入和相应的不同的第二数字嵌入的数据;
接收对所述词汇表中的第一文本分段的最终数字嵌入的请求;
使用门控神经网络来处理所述第一文本分段的所述第一数字嵌入和所述第二数字嵌入,其中,所述门控神经网络被配置成处理所述第一数字嵌入和所述第二数字嵌入以生成权重值;
使用第一编码器神经网络来处理所述第一文本分段的所述第一数字嵌入以生成所述第一数字嵌入的第一编码数字嵌入;
使用第二编码器神经网络来处理所述第一文本分段的所述第二数字嵌入以生成所述第二数字嵌入的第二编码数字嵌入;以及
根据所述权重值来组合所述第一编码数字嵌入和第二编码数字嵌入以生成所述第一文本分段的所述最终数字嵌入。
8.根据权利要求7所述的方法,其中,用于所述词汇表中的每个文本分段的所述第一数字嵌入已被使用权利要求1至6中的任一项所述的方法来生成。
9.根据权利要求7所述的方法,其中,根据所述权重值来组合所述第一编码数字嵌入和第二编码数字嵌入以生成所述第一文本分段的所述最终数字嵌入包括:
针对所述第一编码数字嵌入和第二编码数字嵌入的每个维度,根据所述权重值来确定所述第一编码数字嵌入在所述维度上的值和所述第二编码数字嵌入在所述维度上的值的加权和。
10.根据权利要求7至9中的任一项所述的方法,其中,所述门控神经网络是深度前馈神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910134308.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于结点表示法的指代消解方法
- 下一篇:一种英语翻译辅助系统