[发明专利]一种基于视频数据的底层视听觉特征的视频记忆性判定方法有效
申请号: | 201310418333.1 | 申请日: | 2013-09-13 |
公开(公告)号: | CN103500184A | 公开(公告)日: | 2014-01-08 |
发明(设计)人: | 韩军伟;刘念;郭雷 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于底层视听觉特征的视频记忆性判别方法,提取视频的Object bank特征,saliency特征,color特征,motion特征,audio特征,将这5种特征结合表示一个视频,然后训练支持向量回归机,得到视频记忆判定模型,当给定一个新的视频,判别得到该视频数据的记忆值。本发明可以用于判定视频的记忆性,能应用于广告业,新闻编辑等行业,可以让从业者挑选出合适的视频,具有广泛的商业价值。 | ||
搜索关键词: | 一种 基于 视频 数据 底层 视听 特征 记忆 判定 方法 | ||
【主权项】:
1.一种基于视频数据的底层视听觉特征的视频记忆性判定方法,其特征在于步骤如下:步骤1提取视频数据库中视频数据的视听觉特征:步骤a:视频数据库中共包含N∈[100,1000]个视频数据,提取每个视频数据每一秒的第一帧作为视频数据的关键帧;步骤b、计算视频数据的object bank特征:利用Li-Jia Li在2010年发布的object bank程序包,采用下采样技术得到每一关键帧输入图像的12个尺度图像,并将这12个尺度图像与object bank程序中的208个物体模板进行卷积计算,得到每一关键帧的208×12幅响应图像;利用二插值方法,将每一关键帧对应于每个模板的12个尺度的响应图像插值,得到相同尺寸的响应图像;计算每一个像素点在12个相同尺度的响应图像上的最大值,构成一个最大响应图像;然后求最大响应图像的像素平均值,得到每一关键帧的一个208维的特征向量;将每一视频数据的所有关键帧的208维的特征在每个维度上分别求最大值,得到每一视频数据的208维的特征向量;再求每一个视频数据的208维特征向量的均值和方差,得到2维的特征向量;然后找到每一视频数据的208维的特征向量中最大分量的值max,计算208维特征向量中分量的值大于1.5*max的分量的个数占总维度208的比率作为object bank simplicity特征;将得到的208维特征以及均值、方差和object bank simplicity特征连起来,得到一个视频数据的211维的object bank特征;步骤c、计算视频数据的saliency特征:首先提取视频数据库中每一个视频的每一个关键帧的saliency图像,将每一个关键帧的saliency图像二值化得到二值图像;计算每一个二值图像的不连通区域的个数以及其相应的面积,然后(1)计算图像的saliency熵特征,记为SE,计算模型为:SE = - Σ k = 1 N S k S ln ( S k S ) ]]> 其中,N是二值图像中不连通区域的个数;Sk是每一不连通区域的面积;S是二值图像的所有不连通区域的总面积;(2)以视频帧的中心为中心生成一个与视频帧等大小的归一化的Gaussian模板,给定Gaussian模板的标准差计算平均显著强度SI,计算模型为:SI = 1 S frame Σ k = 1 N Σ ( i , j ) ∈ R k B i , j * ω Gaus i , j ]]> 其中,(x,y)为视频帧的大小;Sframe是关键帧的面积;N是二值图像中不连通区域的个数;Rk是第k个不连通区域;Bi,j表示在saliency图像中像素(i,j)的saliency值;表示先前得到的Gaussian模板在像素(i,j)处的权重;由此得到每一个关键帧的SE、SI两个特征,然后对一个视频的所有关键帧分别求这两个特征的均值,得到视频的2维的saliency特征向量;步骤d、计算视频的color特征:(1)将视频数据的每一个关键帧从RGB颜色空间转换到HSV颜色空间,计算关键帧在HSV空间中V值的均值作为brightness特征;计算关键帧的S值的均值作为saturation特征;(2)将视频数据的每一个关键帧从RGB颜色空间转换到HSL颜色空间,计算关键帧在HSL空间中L值的无偏标准差作为contrast特征;(3)计算colorfulness特征,在RGB颜色空间中,计算关键帧每一个像素点的值rg=R-G,yb=1/2(R+G)-B,再计算一个关键帧的rg值和yb值的均值μrg和μyb,以及方差和然后计算colorfulness特征colorfu ln ess = σ rg 2 + σ yb 2 + 0.3 μ rg 2 + μ yb 2 ; ]]> (4)计算simplicity特征,在RGB空间中做关键帧的直方图,将关键帧RGB三个通道的每一个通道平均量化为16个bins,得到整个RGB空间量化后的4096个bins,然后计算属于每一个bin的像素数,得到每个关键帧的4096维的直方图;然后找到这个直方图中最大的幅值max,计算直方图中幅值大于0.01*max的bins的个数占总个数4096的比例作为simplicity特征;由此一个视频的每个关键帧都得到了brightness、saturation、contrast、colorfulness、simplicity5个特征值,然后对一个视频的所有的关键帧的这5个特征值分别求均值和方差,总共得到10个值,将其连接为一个10维向量作为一个视频的color特征;步骤e、计算视频的motion特征:首先以每秒钟均匀地采样5帧的频率对每一个视频进行采样,然后对采样出来的采样视频采用standard block-based motion estimation进行运动估计;对于采样出来的N帧,得到了N-1对相邻帧间的microblocks的运动向量;然后计算每对相邻帧间的所有microblocks的运动向量的平均强度值,得到N-1个平均运动强度;计算平均运动强度的均值和方差,作为一个视频的2维motion特征;步骤f、计算视频的audio特征:首先提取每一个视频数据的音频信号,然后利用Olivier Lartillot等人发布的MIRtoolbox程序,提取每一个视频语音信号的13维MFCC特征,以及brightness、roughness、novelty、low energy rate、root-mean-square energy、zero-crossing rate、roll off、pitch estimation、Shannon entropy特征,然后将这22维特征连成一个长向量,作为视频的audio特征;步骤2、模型训练:以给定的具有记忆性数值的视频数据库作为训练样本,利用步骤1的方法,提取训练样本中每一视频数据的Object bank特征,saliency特征,color特征,motion特征,audio特征,然后将这些特征首尾串联在一起,得到每一个视频数据的247维的底层视听觉特征向量,利用训练样本中视频的可记忆性数值作为标签,训练得到一个支持向量回归机模型;步骤3、预测视频可记忆性数值:对于一个记忆性数值未知的视频,通过步骤1提取其Object bank特征,saliency特征,color特征,motion特征,audio特征,然后将这些特征首尾串联在一起形成一个247维的底层视听觉特征向量,输入到步骤2得到的支持向量回归机模型中进行判定,得到未知视频的记忆性数值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310418333.1/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置