[发明专利]一种基于视频数据的底层视听觉特征的视频记忆性判定方法有效

申请号：	201310418333.1	申请日：	2013-09-13
公开（公告）号：	CN103500184A	公开（公告）日：	2014-01-08
发明（设计）人：	韩军伟;刘念;郭雷	申请（专利权）人：	西北工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	西北工业大学专利中心 61204	代理人：	王鲜凯
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于底层视听觉特征的视频记忆性判别方法，提取视频的Object bank特征，saliency特征，color特征，motion特征，audio特征，将这5种特征结合表示一个视频，然后训练支持向量回归机，得到视频记忆判定模型，当给定一个新的视频，判别得到该视频数据的记忆值。本发明可以用于判定视频的记忆性，能应用于广告业，新闻编辑等行业，可以让从业者挑选出合适的视频，具有广泛的商业价值。
搜索关键词：	一种基于视频数据底层视听特征记忆判定方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于视频数据的底层视听觉特征的视频记忆性判定方法，其特征在于步骤如下：步骤1提取视频数据库中视频数据的视听觉特征：步骤a：视频数据库中共包含N∈[100,1000]个视频数据，提取每个视频数据每一秒的第一帧作为视频数据的关键帧；步骤b、计算视频数据的object bank特征：利用Li-Jia Li在2010年发布的object bank程序包，采用下采样技术得到每一关键帧输入图像的12个尺度图像，并将这12个尺度图像与object bank程序中的208个物体模板进行卷积计算，得到每一关键帧的208×12幅响应图像；利用二插值方法，将每一关键帧对应于每个模板的12个尺度的响应图像插值，得到相同尺寸的响应图像；计算每一个像素点在12个相同尺度的响应图像上的最大值，构成一个最大响应图像；然后求最大响应图像的像素平均值，得到每一关键帧的一个208维的特征向量；将每一视频数据的所有关键帧的208维的特征在每个维度上分别求最大值，得到每一视频数据的208维的特征向量；再求每一个视频数据的208维特征向量的均值和方差，得到2维的特征向量；然后找到每一视频数据的208维的特征向量中最大分量的值max，计算208维特征向量中分量的值大于1.5*max的分量的个数占总维度208的比率作为object bank simplicity特征；将得到的208维特征以及均值、方差和object bank simplicity特征连起来，得到一个视频数据的211维的object bank特征；步骤c、计算视频数据的saliency特征：首先提取视频数据库中每一个视频的每一个关键帧的saliency图像，将每一个关键帧的saliency图像二值化得到二值图像；计算每一个二值图像的不连通区域的个数以及其相应的面积，然后（1）计算图像的saliency熵特征，记为SE，计算模型为：SE=-Σk=1NSkSln(SkS)]]>其中，N是二值图像中不连通区域的个数；S_k是每一不连通区域的面积；S是二值图像的所有不连通区域的总面积；（2）以视频帧的中心为中心生成一个与视频帧等大小的归一化的Gaussian模板，给定Gaussian模板的标准差计算平均显著强度SI，计算模型为：SI=1SframeΣk=1NΣ(i,j)∈RkBi,j*ωGausi,j]]>其中，(x,y)为视频帧的大小；S_frame是关键帧的面积；N是二值图像中不连通区域的个数；R_k是第k个不连通区域；B_i,j表示在saliency图像中像素(i,j)的saliency值；表示先前得到的Gaussian模板在像素(i,j)处的权重；由此得到每一个关键帧的SE、SI两个特征，然后对一个视频的所有关键帧分别求这两个特征的均值，得到视频的2维的saliency特征向量；步骤d、计算视频的color特征：（1）将视频数据的每一个关键帧从RGB颜色空间转换到HSV颜色空间，计算关键帧在HSV空间中V值的均值作为brightness特征；计算关键帧的S值的均值作为saturation特征；（2）将视频数据的每一个关键帧从RGB颜色空间转换到HSL颜色空间，计算关键帧在HSL空间中L值的无偏标准差作为contrast特征；（3）计算colorfulness特征，在RGB颜色空间中，计算关键帧每一个像素点的值rg＝R-G，yb＝1/2(R+G)-B，再计算一个关键帧的rg值和yb值的均值μ_rg和μ_yb，以及方差和然后计算colorfulness特征colorfulness=σrg2+σyb2+0.3μrg2+μyb2;]]>（4）计算simplicity特征，在RGB空间中做关键帧的直方图，将关键帧RGB三个通道的每一个通道平均量化为16个bins，得到整个RGB空间量化后的4096个bins，然后计算属于每一个bin的像素数，得到每个关键帧的4096维的直方图；然后找到这个直方图中最大的幅值max，计算直方图中幅值大于0.01*max的bins的个数占总个数4096的比例作为simplicity特征；由此一个视频的每个关键帧都得到了brightness、saturation、contrast、colorfulness、simplicity5个特征值，然后对一个视频的所有的关键帧的这5个特征值分别求均值和方差，总共得到10个值，将其连接为一个10维向量作为一个视频的color特征；步骤e、计算视频的motion特征：首先以每秒钟均匀地采样5帧的频率对每一个视频进行采样，然后对采样出来的采样视频采用standard block-based motion estimation进行运动估计；对于采样出来的N帧，得到了N-1对相邻帧间的microblocks的运动向量；然后计算每对相邻帧间的所有microblocks的运动向量的平均强度值，得到N-1个平均运动强度；计算平均运动强度的均值和方差，作为一个视频的2维motion特征；步骤f、计算视频的audio特征：首先提取每一个视频数据的音频信号，然后利用Olivier Lartillot等人发布的MIRtoolbox程序，提取每一个视频语音信号的13维MFCC特征，以及brightness、roughness、novelty、low energy rate、root-mean-square energy、zero-crossing rate、roll off、pitch estimation、Shannon entropy特征，然后将这22维特征连成一个长向量，作为视频的audio特征；步骤2、模型训练：以给定的具有记忆性数值的视频数据库作为训练样本，利用步骤1的方法，提取训练样本中每一视频数据的Object bank特征，saliency特征，color特征，motion特征，audio特征，然后将这些特征首尾串联在一起，得到每一个视频数据的247维的底层视听觉特征向量，利用训练样本中视频的可记忆性数值作为标签，训练得到一个支持向量回归机模型；步骤3、预测视频可记忆性数值：对于一个记忆性数值未知的视频，通过步骤1提取其Object bank特征，saliency特征，color特征，motion特征，audio特征，然后将这些特征首尾串联在一起形成一个247维的底层视听觉特征向量，输入到步骤2得到的支持向量回归机模型中进行判定，得到未知视频的记忆性数值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310418333.1/，转载请声明来源钻瓜专利网。

上一篇：基于热效应的太赫兹量子级联激光器电路建模仿真方法
下一篇：一种高精度多普勒精光雷达频率锁定系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于视频数据的底层视听觉特征的视频记忆性判定方法有效

专利文献下载