[发明专利]生成映像的自然语言描述有效
申请号: | 201910624318.X | 申请日: | 2015-11-13 |
公开(公告)号: | CN110443351B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 萨米·本希奥;奥里奥尔·温亚尔斯;亚历山大·托什科夫·托舍夫;杜米特鲁·埃尔汉 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;刘笑芳 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 映像 自然语言 描述 | ||
公开了生成映像的自然语言描述。用于生成输入映像的描述的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括获取输入映像;使用第一神经网络处理输入映像以生成输入映像的替代表示;以及使用第二神经网络处理输入映像的替代表示以生成描述输入映像的目标自然语言中的多个词的序列。
本申请是分案申请,原案的申请号是201580032854.0,申请日是2015-11-13,发明名称是“生成映像的自然语言描述”。
技术领域
本申请涉及生成映像的自然语言描述。
背景技术
本说明书涉及使用神经网络生成输入映像的自然语言描述。
神经网络(Neural networks)是采用一个或多个非线性单元层来预测对于接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用做网络中下一层——即下一隐藏层或输出层——的输入。网络的每层根据相应的参数集合的当前值从接收的输入生成输出。
一些神经网络是回归神经网络。回归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地,回归神经网络可以使用来自先前时间步骤的网络的内部状态的一些或全部计算当前时间步骤处的输出。回归神经网络的示例是包括一个或多个长短期存储器(LSTM)存储器块的LSTM神经网络。每个LSTM存储器块可以包括一个或多个单体,每个单体包括输入门,遗忘门和输出门,其允许该单体存储该单体的先前状态,举例来说,用于生成当前激活或将被提供到LSTM神经网络的其他组件。
发明内容
本说明书描述了被实施为在一个或多个位置中的一个或多个计算机上的计算机程序的系统如何可以生成映像的自然语言描述。
可以实施本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。通过生成适当形成的自然语言词序列,可以训练系统自动描述输入映像的内容。有利地,与先前方法不同,系统可以是使用随机梯度下降完全可训练的端到端系统,并且能够比先前方法在映像描述任务上产生更好的性能。系统生成的词序列不仅可以捕获包含在映像中的对象,而且还可以表现对象如何相互关联以及它们的属性和它们涉及的活动。为了生成描述,神经网络有效地将用于视觉理解的模型与语言模型结合。
在附图和下面的描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据描述、附图和权利要求,主题的其他特征,方面和优点将变得显而易见。
附图说明
图1示出了示例映像描述系统。
图2是生成输入映像的自然语言描述的流程图。
图3是使用解码器LSTM神经网络生成自然语言序列的示例过程的流程图。
图4是使用解码器LSTM神经网络进行束搜索解码的示例过程的流程图。
各个附图中相同的附图标记和指定指示相同的元件。
具体实施方式
图1示出了示例映像描述系统100。映像描述系统100是在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统的示例,其中可以实施下面描述的系统,组件和技术。
映像描述系统100接收输入映像102并且生成用于输入映像102的自然语言序列122。自然语言序列122是描述输入映像102的目标自然语言中的词序列。由映像描述系统100生成的自然语言序列通常是可变长度序列,即可以包含目标自然语言中的不同数量的词的序列。
映像描述系统100包括编码器卷积神经网络110和解码器LSTM神经网络120。
作为生成输入映像102的自然语言序列122的一部分,映像描述系统100使用编码器卷积神经网络110处理输入映像102,以生成输入映像102的替代表示112。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910624318.X/2.html,转载请声明来源钻瓜专利网。