[发明专利]生成映像的自然语言描述有效
申请号: | 201910624318.X | 申请日: | 2015-11-13 |
公开(公告)号: | CN110443351B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 萨米·本希奥;奥里奥尔·温亚尔斯;亚历山大·托什科夫·托舍夫;杜米特鲁·埃尔汉 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;刘笑芳 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 公开了生成映像的自然语言描述。用于生成输入映像的描述的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括获取输入映像;使用第一神经网络处理输入映像以生成输入映像的替代表示;以及使用第二神经网络处理输入映像的替代表示以生成描述输入映像的目标自然语言中的多个词的序列。 | ||
搜索关键词: | 生成 映像 自然语言 描述 | ||
【主权项】:
1.具有在其上编码的指令的一种或多种非暂时性计算机存储介质,所述指令当由一个或多个计算机执行时使得所述一个或多个计算机执行操作,所述操作包括:获得输入映像;使用第一神经网络处理所述输入映像,以生成所述输入映像的替代表示;以及利用回归神经网络处理所述输入映像的所述替代表示,以生成描述所述输入映像的目标自然语言的词的输出序列,其中:所述输出序列中的词根据输出次序排列,以及处理所述输入映像的所述替代表示包括,对于所述输出次序中在初始位置之后的每个位置:(i)识别为所述输出序列所选择的、在所述输出次序中位于当前位置之前的在前位置处的词;(ii)利用所述回归神经网络来处理表示为所述输出序列所选择的、在所述输出次序中位于所述在前位置处的所述词的数据,以生成可能词的预定义集合中的词的相应词得分,以及(iii)从所述可能词的预定义集合中并基于所述相应词得分,选择在所述输出次序中的所述当前位置的所述输出序列的特定词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910624318.X/,转载请声明来源钻瓜专利网。