[发明专利]视频描述方法、系统及装置有效
申请号: | 201710940199.X | 申请日: | 2017-09-30 |
公开(公告)号: | CN110019952B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 蔡海军;陈院林;王亮;王威 | 申请(专利权)人: | 华为技术有限公司;中国科学院自动化研究所 |
主分类号: | G06F16/738 | 分类号: | G06F16/738;G06V20/40;G06V10/774;G06V10/82;G06N3/0464 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 描述 方法 系统 装置 | ||
本发明实施例提供了一种视频描述方法、系统及装置,其中,该方法可以利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示;将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中;根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息;利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见,该实施例采用多模态描述方法,有助于增加视频描述的灵活性。
技术领域
本申请涉及自动化技术领域,尤其涉及一种视频描述方法、系统及装置。
背景技术
视频内容的自动化描述是计算机视觉与机器学习领域的一项重大挑战,具有广泛的应用背景。例如,帮助盲人描述电影内容、视频检索以及人机交互等。为了实现视频内容的自动化描述,计算机算法需要对视频内容进行全面的理解,还需要构造一个强大的语言模型,更需要能准确地将视频中的元素映射到语言空间。
然而,目前的视频描述方法大多是基于固定的句子模板,对视频信息进行描述,导致输出的描述会过于生硬。
发明内容
本申请提供一种视频描述方法、系统及装置,可以基于多模态信息输出视频的描述,有助于增加描述的灵活性。
一方面,本申请实施例提供了一种视频描述方法,利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示;将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中;根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息;利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见,本发明实施例采用视觉、文本以及属性等多模态特征来预测单词,可以提高视频描述中的特征表达能力,提高视频描述的灵活度。进一步的,本发明实施例采用视觉记忆存储、文本记忆存储和属性记忆存储器可以解决长范围的视觉与文本依赖性建模的问题。
作为一种实施方式,所述利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之前,还可以基于卷积神经网络的视频编码器对给定的训练样本中的视频进行预处理,获得视频特征表示,将所述视频特征表示存储在视频记忆存储器中;基于长短时记忆网络的文本解码器对所述训练样本中的文本进行预处理,获得文本特征表示,所述文本特征表示存储在文本记忆存储器中;根据所述视频记忆存储器中的视频特征表示以及文本记忆存储器中的文本特征表示,获得属性特征,所述属性特征存储在属性记忆存储器中。
作为另一种实施方式,所述利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之后,从当前时刻的文本记忆存储器读取文本信息;根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择,获得当前时刻关注的视觉特征表示;所述将当前时刻的视觉特征表示写入到视觉记忆存储器中,包括:将所述当前时刻关注的视觉特征表示写入到视觉记忆存储器。
可见,该实施方式可以从当前时刻的文本记忆存储器中读取文本信息,根据该文本信息通过注意力模型对当前时刻视频帧的特征表示进行选择,获得当前时刻关注的视觉特征表示,将当前时刻关注的视觉特征表示写入到视觉记忆存储器中,从而,在进行单词预测时从视觉记忆存储器中读取的视觉特征可以更加贴合用户当前关注的内容,从而,增加单词预测的准确度。也就是说,本发明实施例可以重点关注输入的视频帧中的关键部分,从而改善特征提取能力。
其中,该视频描述方法还可以判断所述待描述视频的视频描述是否结束;若未结束,则利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示,以及执行上述其他操作,直至所述待描述视频的视频描述结束。
其中,利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词之后,所述方法还包括:将所述预测的单词写入所述文本记忆存储器中以及输出所述预测的单词。本发明实施例中,输出所述预测的单词的方式可以以语音的方式输出,也可以以文本的方式输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;中国科学院自动化研究所,未经华为技术有限公司;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710940199.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生成视频缩略图的方法及设备
- 下一篇:一种有效载荷图像数据实时快视系统