[发明专利]一种基于长短时记忆网络变体的视频描述生成方法有效
申请号: | 202010602795.9 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111818397B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 王瀚漓;李秦渝;杨龙雨 | 申请(专利权)人: | 同济大学 |
主分类号: | H04N21/84 | 分类号: | H04N21/84;H04N21/466;G06N3/04;G06K9/62 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 短时记忆 网络 变体 视频 描述 生成 方法 | ||
本发明涉及一种基于长短时记忆网络变体的视频描述生成方法,包括以下步骤:1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;2)输入待描述的视频,通过卷积神经网络获取初始视频特征;3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。与现有技术相比,本发明具有兼顾关键帧特征提取和全局特征提取、提升视频描述的质量和准确性等优点。
技术领域
本发明涉及视频理解和自然语言处理交叉技术领域,尤其是涉及一种基于长短时记忆网络变体的视频描述生成方法。
背景技术
视频描述是视觉智能中的高级任务,要求模型具备对视频内容深度理解的能力,该任务通过机器学习模型,将视频信息自动转换为自然语言描述,在视频搜索、互联网内容审查、视频监控、机器人、智能医疗等领域都有广泛的应用前景,因此引起了国内外众多学者的研究兴趣,而视觉内容描述作为从视觉到语言的转化,是一项结合了计算机视觉和自然语言处理两个领域的综合任务,视频描述任务不仅要求算法模型能够识别视频中的对象,还需要识别对象的行为、理解对象之间的关系,再用自然语言进行描述,因此该任务也是机器学习领域的一大难点问题。
目前,大部分学者主要使用深度学习方法来实现视觉描述任务,最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征,再将视觉特征送入长短时记忆网络(LSTM)来生成自然语言描述,如中国专利CN110288029A。为了模仿人类做视觉描述时描述每个词大脑会将注意力集中到图片或视频中的某一区域这一机制,注意力网络(Attention Network)也被引入视觉描述任务,如中国专利CN108052512A,但目前的方法还存在缺乏生成自然语言所需的生动的语义信息以及容易产生噪声等问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于长短时记忆网络变体的视频描述生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于长短时记忆网络变体的视频描述生成方法,包括以下步骤:
1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;
2)输入待描述的视频,通过卷积神经网络获取初始视频特征;
3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;
4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。
所述的步骤3)具体为:
将初始视频特征按时间序列输入到第一LSTM中,获取带有语义信息的全局视频特征。
对于第一LSTM,在第i时间步,其第一LSTM的隐藏层和细胞层的计算式为:
其中,vi为第i时间步视频特征序列中的元素,分别为第一LSTM的第i-1时间步的隐藏层和细胞层,分别为第一LSTM的初始隐藏层和细胞层,LSTM1(·)为第一长短时记忆网络。
所述的描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述的第二LSTM用于描述CaptionNet网络前面时间步的句子信息,并生成句子特征,所述的注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征,即注意力视频特征,所述的CaptionNet网络为LSTM变体,其输入门和细胞输入仅以注意力视频特征作为输入,其遗忘门和输出门同时以注意力视频特征和句子特征作为输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010602795.9/2.html,转载请声明来源钻瓜专利网。