[发明专利]一种基于特征融合和级联学习的视频内容定位方法有效
申请号: | 201910129460.7 | 申请日: | 2019-02-21 |
公开(公告)号: | CN110020596B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 赵祈杰;单开禹;王勇涛;汤帜 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G10L15/02;G10L15/06 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公布了一种基于特征融合的视频内容定位方法,包括视频的特征提取过程、特征融合过程和视频内容定位过程。特征融合包括前融合和后融合;前融合将视频各维度的低层次特征进行级联后通过神经网络 |
||
搜索关键词: | 一种 基于 特征 融合 级联 学习 视频 内容 定位 方法 | ||
【主权项】:
1.一种基于特征融合的视频内容定位方法,所述特征融合包括前融合和后融合;前融合将视频各维度的低层次特征进行级联后通过神经网络
进行融合;后融合将神经网络
的输出进行拼接,再通过神经网络CF(·)对视频各维度的高层语义特征进行融合;视频内容定位方法包括视频的特征提取过程、特征融合过程和视频内容定位过程;具体包括如下步骤:1)提取视频各个模态的低层次特征;,得到多个二维特征向量;分别记为fi,二维特征向量的相应大小为(T,li);T为视频抽帧帧数;i表示视频各个模态;2)将提取得到的视频各个模态的低层次特征在类别维度直接进行级联,得到特征向量,记为
作为前融合的输入,
的维度为(T,
);n为模态个数;3)使用与模态数相同个数的,由两个一维的卷积层和激活层组成的神经网络Ci,分别学习各个模态的低层次特征信号的表示,得到各个模态的低层次特征信号编码,记作特征向量ai;4)构建前融合网络
包括两层一维的卷积层;使用前融合网络
融合视频的各个模态的低层次特征,
的输入为向量
得到前融合结果
5)将步骤3)得到的各个模态的低层次特征信号编码和步骤4)得到的前融合结果进行级联,得到结果记为
大小为(T,1024),作为后融合网络CF(·)的输入;6)构建后融合网络CF(·),包括三层一维卷积层,输出维度为(T,3),分别对应每帧视频作为被定位的动作为开始start阶段、过程action阶段和结束end阶段的分数,将各阶段的分数序列集合分别记为
分别对应曲线Start(s),曲线End(e),和曲线Action(s)在时刻t=1,2,3,…,T的概率;7)通过筛选后融合网络CF(·)输出组成的分数‑视频时序曲线中的峰值,来生成多个候选定位片段;具体执行如下操作:7.1)生成候选时间片段:设当前帧时刻为t,将曲线Start(s)上分数高于设定值的点,以及满足
或
的点s筛选为集合{s|s_i>设定值};s_i的取值范围为[0,1];将曲线End(e)上分数高于设定值的点,以及满足
的点e筛选为集合{e|e_i>设定值};将两个集合间的点相互连接,根据不同段长度生成候选时间片段;7.2)对生成的每个候选时间片段进行线性插值,将候选时间片段统一为相同长度的一系列候选定位片段
8)构造神经网络CG(·),使用卷积神经网络CG(·)为步骤7)生成的候选定位片段打分,CG(·)的输出为每个视频的候选定位片段的评分;该评分表示将候选定位片段
作为定位结果的契合程度,根据评分实现基于特征融合的视频内容定位。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910129460.7/,转载请声明来源钻瓜专利网。
- 上一篇:指纹图像传感方法
- 下一篇:一种用于头晕/眩晕辅诊的眼部视频处理方法及系统