[发明专利]一种短视频配乐质量客观评价方法有效

专利信息
申请号: 201911257134.0 申请日: 2019-12-10
公开(公告)号: CN110933406B 公开(公告)日: 2021-05-14
发明(设计)人: 董培祥;朱立松 申请(专利权)人: 央视国际网络无锡有限公司
主分类号: H04N17/00 分类号: H04N17/00;H04N21/439;H04N21/44;H04N21/475
代理公司: 暂无信息 代理人: 暂无信息
地址: 214000 江苏省无锡市新区震泽路1*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 视频 配乐 质量 客观 评价 方法
【权利要求书】:

1.一种短视频配乐质量客观评价方法,其特征是该方法包括以下步骤:

(一)视频配乐全局匹配度计算:

计算视频整体的运动程度与背景音乐的节奏的匹配关系,视频运动高则配乐节奏较快,视频运动缓慢甚至静止则配乐节奏较慢,视频的运动程度由视频时间复杂度表示,音乐节奏由音乐的全局节拍数表示;

(二)视频配乐局部匹配度计算:

局部匹配度是一种细粒度的度量方法,考察视频的运动程度在时间上的分布,与背景音乐能量在时间上的分布之间的匹配程度,匹配度越高则配乐质量较高,匹配度越差则配乐质量较差;

(三)视频配乐质量计算:

最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得;

所述的(一)视频配乐全局匹配度计算,包括:

(1)视频时间复杂度:

不同的视频画面的运动程度不同,有的视频较平缓、有的运动剧烈,视频在视觉上表现出的运动程度即视频的时间复杂度,由视频的时域信息TI计算,对于输入视频Vi,时间复杂度TIi计算步骤如下:

①提取视频中的相邻两帧In和In-1

②计算输入帧的灰度图:

Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,

③计算两帧图像对应的灰度图之间的差值:Mn(i,j)=In,g(i,j)-In-1,g(i,j),其中i,j为对应的像素位置,

④计算差值图Mn的标准差:其中H、W为图像高度和宽度,为差值图Mn像素值的均值:

⑤整个视频的时间复杂度为:其中N为视频的总帧数;

(2)音乐节拍检测:

音乐节拍是乐曲中音符强弱规律的组织形式,节拍表征音乐的平均速度,单位是BPM每分钟节拍数,音乐节拍检测在数学上形式化为优化一个递归可计算的损失函数,该损失函数定义为:

其中{ti}表示在一段音乐中由算法检测到的N个节拍起始的瞬时时刻,O(ti)是音乐的音符强度包络,τp表示检测到的全局节拍间隔,F(ti-ti-1p)表示前后相邻两个节拍的时刻间隔与τp的一致性,α用于控制前后两项的权重,

通过递归的优化上面的损失函数求解音乐的节拍,或用音频处理库LibROSA实现,其中的对应模块为librosa.beat.beat_track;

(3)视频配乐全局匹配度:

全局匹配度由归一化后的视频复杂度和音乐节奏之间的距离表示,步骤如下:

①视频复杂度归一化:

视频的时间复杂度的范围为[5,40],对输入视频V,其时间复杂度为TI,归一化操作即把TI归一化到[5,40]区间,具体计算公式为:

②背景音乐节奏归一化:

背景音乐的节拍范围为[75,190]BPM,对输入视频V,其配乐的全局节拍为B,归一化操作即把B归一化到[75,190]区间,具体计算公式为:

③全局匹配度计算:

短视频与配乐的全局匹配度Qglobal的计算:Qglobal=|TInorm-Bnorm|;

所述的(二)视频配乐局部匹配度计算,包括

(1)视频场景切换检测:

视频中的一个场景即一个镜头,指一系列时序上连续的视频帧,视频场景切换检测的任务是给定一个输入视频,检测出其中的所有场景,并且标注出每个场景的起始帧和终止帧,场景检测步骤如下:

①基于像素的场景切换检测:

基于像素的场景检测方法依赖相邻两帧对应位置的像素的差值,在计算两帧像素的差值之前,先对视频的每一帧做一个平滑操作,以上基于视频帧的灰度分量进行,把视频中的一帧图像记为I,其灰度图记为Ig,平滑之后的图像记为Ic

基于像素的场景切换检测步骤为:

1)提取视频中的相邻两帧I1和I2

2)计算输入帧的灰度图:

Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,

3)对灰度图进行平滑滤波操作:即对输入图像划分为8x8的块的操作,

4)计算相邻两帧的图像像素差值距离:

②基于直方图的场景切换检测:

基于直方图的场景切换检测方法,首先计算相邻视频帧的灰度直方图,用一个量化的直方图表示每帧图像,然后计算两个直方图向量的距离,选用χ2距离来度量两个直方图向量之间的距离,

基于直方图的场景切换检测步骤如下:

1)提取视频中的相邻两帧I1和I2

2)计算输入帧的灰度图:

Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,

3)计算灰度图的颜色直方图,直方图共划分64的灰度区间,把[0,255]区间均匀分为64份,每个区间包含4个连续的灰度值,颜色图像I1的颜色直方图记为H1=(ho,h1,...,h63),

4)计算两帧图像基于直方图的距离:

③基于像素和基于直方图相结合的场景切换检测:

判别标准如下所示:

其中θhist和θpixel分别为直方图检测和像素检测的阈值,阈值的选取由试验中尝试获取;

(2)视频切片:

为精细化计算视频相关信息,对视频进行分片操作,输入短视频V,首先对输入视频进行场景切换检测,将输入视频分为一系列独立场景的片段,每个场景片段的时长不固定,对每个场景片段进一步切分,场景片段切分的时间单位为2s,对于时长小于2s的片段无需处理,对于时长大于2s的场景片段则每2s切分为一个新的视频片段,对于最后一个片段,如果时长在[1s,2s)之间,则作为一个新的片段,如果时长在(0,1s)之间,则合并到已切分的最后一个片段上,对于一个时长大于2s的场景片段,最终切分为N个片段,则前N-1个片段的时长均为2s,第N个片段的时长范围为[1,3)s;

(3)音乐能量分布计算:

对于输入视频V,假设切分为L片,记为P1~PL,视频的背景音乐相应的切分为L个片段,在时域中计算每个音乐片段Pi的均方根能量Ei:

整段音乐的能量分布为Da=(da1,da2,...,daL),

其中

(4)视频时间复杂度分布:

对于输入视频V,假设切分为L片,记为P1~PL,对于每个视频分片Pi计算其时间复杂度的值TIi,整段视频的时间复杂度分布为Dv=(dv1,dv2,...,dvL),其中

(5)视频配乐局部匹配度:

局部匹配度用于计算视频时间复杂度分布Dv和音乐能量分布Da之间的匹配度,使用Dv和Da之间的Kullback-Leibler即KL距离来度量局部匹配度Qlocal :

所述的(三)视频配乐质量计算:最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得:Q=βQlocal+(1-βQglobal),其中β可调参数,控制两部分的权重,默认值β=0.5。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于央视国际网络无锡有限公司,未经央视国际网络无锡有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911257134.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top