[发明专利]一种基于视频数据的底层视听觉特征的视频记忆性判定方法有效

专利信息
申请号: 201310418333.1 申请日: 2013-09-13
公开(公告)号: CN103500184A 公开(公告)日: 2014-01-08
发明(设计)人: 韩军伟;刘念;郭雷 申请(专利权)人: 西北工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西北工业大学专利中心 61204 代理人: 王鲜凯
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于底层视听觉特征的视频记忆性判别方法,提取视频的Object bank特征,saliency特征,color特征,motion特征,audio特征,将这5种特征结合表示一个视频,然后训练支持向量回归机,得到视频记忆判定模型,当给定一个新的视频,判别得到该视频数据的记忆值。本发明可以用于判定视频的记忆性,能应用于广告业,新闻编辑等行业,可以让从业者挑选出合适的视频,具有广泛的商业价值。
搜索关键词: 一种 基于 视频 数据 底层 视听 特征 记忆 判定 方法
【主权项】:
1.一种基于视频数据的底层视听觉特征的视频记忆性判定方法,其特征在于步骤如下:步骤1提取视频数据库中视频数据的视听觉特征:步骤a:视频数据库中共包含N∈[100,1000]个视频数据,提取每个视频数据每一秒的第一帧作为视频数据的关键帧;步骤b、计算视频数据的object bank特征:利用Li-Jia Li在2010年发布的object bank程序包,采用下采样技术得到每一关键帧输入图像的12个尺度图像,并将这12个尺度图像与object bank程序中的208个物体模板进行卷积计算,得到每一关键帧的208×12幅响应图像;利用二插值方法,将每一关键帧对应于每个模板的12个尺度的响应图像插值,得到相同尺寸的响应图像;计算每一个像素点在12个相同尺度的响应图像上的最大值,构成一个最大响应图像;然后求最大响应图像的像素平均值,得到每一关键帧的一个208维的特征向量;将每一视频数据的所有关键帧的208维的特征在每个维度上分别求最大值,得到每一视频数据的208维的特征向量;再求每一个视频数据的208维特征向量的均值和方差,得到2维的特征向量;然后找到每一视频数据的208维的特征向量中最大分量的值max,计算208维特征向量中分量的值大于1.5*max的分量的个数占总维度208的比率作为object bank simplicity特征;将得到的208维特征以及均值、方差和object bank simplicity特征连起来,得到一个视频数据的211维的object bank特征;步骤c、计算视频数据的saliency特征:首先提取视频数据库中每一个视频的每一个关键帧的saliency图像,将每一个关键帧的saliency图像二值化得到二值图像;计算每一个二值图像的不连通区域的个数以及其相应的面积,然后(1)计算图像的saliency熵特征,记为SE,计算模型为:SE=-Σk=1NSkSln(SkS)]]>其中,N是二值图像中不连通区域的个数;Sk是每一不连通区域的面积;S是二值图像的所有不连通区域的总面积;(2)以视频帧的中心为中心生成一个与视频帧等大小的归一化的Gaussian模板,给定Gaussian模板的标准差计算平均显著强度SI,计算模型为:SI=1SframeΣk=1NΣ(i,j)RkBi,j*ωGausi,j]]>其中,(x,y)为视频帧的大小;Sframe是关键帧的面积;N是二值图像中不连通区域的个数;Rk是第k个不连通区域;Bi,j表示在saliency图像中像素(i,j)的saliency值;表示先前得到的Gaussian模板在像素(i,j)处的权重;由此得到每一个关键帧的SE、SI两个特征,然后对一个视频的所有关键帧分别求这两个特征的均值,得到视频的2维的saliency特征向量;步骤d、计算视频的color特征:(1)将视频数据的每一个关键帧从RGB颜色空间转换到HSV颜色空间,计算关键帧在HSV空间中V值的均值作为brightness特征;计算关键帧的S值的均值作为saturation特征;(2)将视频数据的每一个关键帧从RGB颜色空间转换到HSL颜色空间,计算关键帧在HSL空间中L值的无偏标准差作为contrast特征;(3)计算colorfulness特征,在RGB颜色空间中,计算关键帧每一个像素点的值rg=R-G,yb=1/2(R+G)-B,再计算一个关键帧的rg值和yb值的均值μrg和μyb,以及方差然后计算colorfulness特征colorfulness=σrg2+σyb2+0.3μrg2+μyb2;]]>(4)计算simplicity特征,在RGB空间中做关键帧的直方图,将关键帧RGB三个通道的每一个通道平均量化为16个bins,得到整个RGB空间量化后的4096个bins,然后计算属于每一个bin的像素数,得到每个关键帧的4096维的直方图;然后找到这个直方图中最大的幅值max,计算直方图中幅值大于0.01*max的bins的个数占总个数4096的比例作为simplicity特征;由此一个视频的每个关键帧都得到了brightness、saturation、contrast、colorfulness、simplicity5个特征值,然后对一个视频的所有的关键帧的这5个特征值分别求均值和方差,总共得到10个值,将其连接为一个10维向量作为一个视频的color特征;步骤e、计算视频的motion特征:首先以每秒钟均匀地采样5帧的频率对每一个视频进行采样,然后对采样出来的采样视频采用standard block-based motion estimation进行运动估计;对于采样出来的N帧,得到了N-1对相邻帧间的microblocks的运动向量;然后计算每对相邻帧间的所有microblocks的运动向量的平均强度值,得到N-1个平均运动强度;计算平均运动强度的均值和方差,作为一个视频的2维motion特征;步骤f、计算视频的audio特征:首先提取每一个视频数据的音频信号,然后利用Olivier Lartillot等人发布的MIRtoolbox程序,提取每一个视频语音信号的13维MFCC特征,以及brightness、roughness、novelty、low energy rate、root-mean-square energy、zero-crossing rate、roll off、pitch estimation、Shannon entropy特征,然后将这22维特征连成一个长向量,作为视频的audio特征;步骤2、模型训练:以给定的具有记忆性数值的视频数据库作为训练样本,利用步骤1的方法,提取训练样本中每一视频数据的Object bank特征,saliency特征,color特征,motion特征,audio特征,然后将这些特征首尾串联在一起,得到每一个视频数据的247维的底层视听觉特征向量,利用训练样本中视频的可记忆性数值作为标签,训练得到一个支持向量回归机模型;步骤3、预测视频可记忆性数值:对于一个记忆性数值未知的视频,通过步骤1提取其Object bank特征,saliency特征,color特征,motion特征,audio特征,然后将这些特征首尾串联在一起形成一个247维的底层视听觉特征向量,输入到步骤2得到的支持向量回归机模型中进行判定,得到未知视频的记忆性数值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310418333.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top