[发明专利]一种基于LSTM时间一致性视频分析的统一方法在审
申请号: | 201910649096.7 | 申请日: | 2019-07-18 |
公开(公告)号: | CN110363164A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 李晓丽;宋国美;杜振龙 | 申请(专利权)人: | 南京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 211816 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于LSTM时间一致性视频分析的统一方法,包括:1)读取待分析的视频片段,并将其分割成一个时间片段序列;2)使用CNN编码视频内容;3)编码视频语义;4)编码视频及语义的联合映射(SVS);5)从语义外观一致性将目标视频语义与数据集语义相匹配;6)从时间一致性将目标视频与数据集语义进行匹配;7)进一步进行细化处理;8)使用LSTM预测语义动态,从而得到最准确的视频分析及摘要提取。本发明为计算机视觉和图像处理领域中一种基于视觉的视频分析的统一方法,能够准确、高效的分析理解视频,并能提取视频的有效信息。 | ||
搜索关键词: | 语义 视频分析 时间一致性 编码视频 目标视频 数据集 匹配 视频 时间片段序列 图像处理领域 读取 计算机视觉 外观一致性 视频片段 细化处理 有效信息 摘要提取 统一 映射 分析 视觉 分割 预测 联合 | ||
【主权项】:
1.一种基于LSTM时间一致性视频分析的统一方法,其特征在于,包括以下步骤:步骤1,读取待分析的测试视频片段C,将测试视频和参考视频基准分割成一个视频片段序列;步骤2,编码视频内容:将视频片段序列表示成连续的帧Ii,i∈1,2,...,n,n表示片段序列的帧数;对于单帧Ii,使用卷积神经网络CNN来对其外观空间表示进行编码;对于多个帧,则用多个单帧合并获得视频片段的可视特征表示;步骤3,编码视频语义:将视频的外观空间表示集用A表示,设用s描述一个视频片段C的文本语义,其中s是一个包含自然语言单词的字符串序列,将s中的单词序列映射到一个数字向量空间S(s1,...,sm),其中m是s中的单词数量,S即为视频语义集;步骤4,将视频外观空间及语义映射到SVS联合空间:使用正则化相关分析CCA将所有片段的外观空间表示A和相关语义的数字向量空间S联合映射到SVS,其中CCA映射是通过对每一片段真实语义的训练完成的;将视频片段的外观空间表示与相关语义映射到SVS的相邻两个点,继而实现:当查找一个视频片段的外观空间表示时,通过欧几里得距离就能找到相应的语义;步骤5,视频外观与语义的一致性匹配:构建一个视频片段的训练数据集,包括视频片段的外观表示和相关语义;依据步骤2‑4将测试视频片段处理为SVS空间的一个片段序列,在训练集中为每个测试片段选择最匹配的语义;步骤6,从时间一致性将测试视频片段语义与训练集语义进行匹配:依据Markovian假设,测试视频片段i的语义仅仅取决于片段i的外观表示及其前一片段i‑1的语义;将先验概率设为均匀分布,使用联合SVS表示的L2范数来定义后验概率,应用标准的维特比方法获得一个序列V,使得概率最大化;步骤7,进一步细化匹配:使用受限维特比方法提供V*的赋值,选取概率值最大的语义;步骤8,预测语义的动态:采用LSTM RNN网络完成模型训练并预测下一个视频片段的最准确语义。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学,未经南京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910649096.7/,转载请声明来源钻瓜专利网。