[发明专利]一种短视频配乐质量客观评价方法有效
申请号: | 201911257134.0 | 申请日: | 2019-12-10 |
公开(公告)号: | CN110933406B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 董培祥;朱立松 | 申请(专利权)人: | 央视国际网络无锡有限公司 |
主分类号: | H04N17/00 | 分类号: | H04N17/00;H04N21/439;H04N21/44;H04N21/475 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214000 江苏省无锡市新区震泽路1*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 配乐 质量 客观 评价 方法 | ||
1.一种短视频配乐质量客观评价方法,其特征是该方法包括以下步骤:
(一)视频配乐全局匹配度计算:
计算视频整体的运动程度与背景音乐的节奏的匹配关系,视频运动高则配乐节奏较快,视频运动缓慢甚至静止则配乐节奏较慢,视频的运动程度由视频时间复杂度表示,音乐节奏由音乐的全局节拍数表示;
(二)视频配乐局部匹配度计算:
局部匹配度是一种细粒度的度量方法,考察视频的运动程度在时间上的分布,与背景音乐能量在时间上的分布之间的匹配程度,匹配度越高则配乐质量较高,匹配度越差则配乐质量较差;
(三)视频配乐质量计算:
最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得;
所述的(一)视频配乐全局匹配度计算,包括:
(1)视频时间复杂度:
不同的视频画面的运动程度不同,有的视频较平缓、有的运动剧烈,视频在视觉上表现出的运动程度即视频的时间复杂度,由视频的时域信息TI计算,对于输入视频Vi,时间复杂度TIi计算步骤如下:
①提取视频中的相邻两帧In和In-1,
②计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
③计算两帧图像对应的灰度图之间的差值:Mn(i,j)=In,g(i,j)-In-1,g(i,j),其中i,j为对应的像素位置,
④计算差值图Mn的标准差:其中H、W为图像高度和宽度,为差值图Mn像素值的均值:
⑤整个视频的时间复杂度为:其中N为视频的总帧数;
(2)音乐节拍检测:
音乐节拍是乐曲中音符强弱规律的组织形式,节拍表征音乐的平均速度,单位是BPM每分钟节拍数,音乐节拍检测在数学上形式化为优化一个递归可计算的损失函数,该损失函数定义为:
其中{ti}表示在一段音乐中由算法检测到的N个节拍起始的瞬时时刻,O(ti)是音乐的音符强度包络,τp表示检测到的全局节拍间隔,F(ti-ti-1,τp)表示前后相邻两个节拍的时刻间隔与τp的一致性,α用于控制前后两项的权重,
通过递归的优化上面的损失函数求解音乐的节拍,或用音频处理库LibROSA实现,其中的对应模块为librosa.beat.beat_track;
(3)视频配乐全局匹配度:
全局匹配度由归一化后的视频复杂度和音乐节奏之间的距离表示,步骤如下:
①视频复杂度归一化:
视频的时间复杂度的范围为[5,40],对输入视频V,其时间复杂度为TI,归一化操作即把TI归一化到[5,40]区间,具体计算公式为:
②背景音乐节奏归一化:
背景音乐的节拍范围为[75,190]BPM,对输入视频V,其配乐的全局节拍为B,归一化操作即把B归一化到[75,190]区间,具体计算公式为:
③全局匹配度计算:
短视频与配乐的全局匹配度Qglobal的计算:Qglobal=|TInorm-Bnorm|;
所述的(二)视频配乐局部匹配度计算,包括
(1)视频场景切换检测:
视频中的一个场景即一个镜头,指一系列时序上连续的视频帧,视频场景切换检测的任务是给定一个输入视频,检测出其中的所有场景,并且标注出每个场景的起始帧和终止帧,场景检测步骤如下:
①基于像素的场景切换检测:
基于像素的场景检测方法依赖相邻两帧对应位置的像素的差值,在计算两帧像素的差值之前,先对视频的每一帧做一个平滑操作,以上基于视频帧的灰度分量进行,把视频中的一帧图像记为I,其灰度图记为Ig,平滑之后的图像记为Ic,
基于像素的场景切换检测步骤为:
1)提取视频中的相邻两帧I1和I2,
2)计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
3)对灰度图进行平滑滤波操作:即对输入图像划分为8x8的块的操作,
4)计算相邻两帧的图像像素差值距离:
②基于直方图的场景切换检测:
基于直方图的场景切换检测方法,首先计算相邻视频帧的灰度直方图,用一个量化的直方图表示每帧图像,然后计算两个直方图向量的距离,选用χ2距离来度量两个直方图向量之间的距离,
基于直方图的场景切换检测步骤如下:
1)提取视频中的相邻两帧I1和I2,
2)计算输入帧的灰度图:
Ig(x,y)=0.3R(x,y)+0.59G(x,y)+0.11B(x,y),其中R(x,y)、G(x,y)、B(x,y)分别为输入图像对应像素的三个色度分量值,
3)计算灰度图的颜色直方图,直方图共划分64的灰度区间,把[0,255]区间均匀分为64份,每个区间包含4个连续的灰度值,颜色图像I1的颜色直方图记为H1=(ho,h1,...,h63),
4)计算两帧图像基于直方图的距离:
③基于像素和基于直方图相结合的场景切换检测:
判别标准如下所示:
其中θhist和θpixel分别为直方图检测和像素检测的阈值,阈值的选取由试验中尝试获取;
(2)视频切片:
为精细化计算视频相关信息,对视频进行分片操作,输入短视频V,首先对输入视频进行场景切换检测,将输入视频分为一系列独立场景的片段,每个场景片段的时长不固定,对每个场景片段进一步切分,场景片段切分的时间单位为2s,对于时长小于2s的片段无需处理,对于时长大于2s的场景片段则每2s切分为一个新的视频片段,对于最后一个片段,如果时长在[1s,2s)之间,则作为一个新的片段,如果时长在(0,1s)之间,则合并到已切分的最后一个片段上,对于一个时长大于2s的场景片段,最终切分为N个片段,则前N-1个片段的时长均为2s,第N个片段的时长范围为[1,3)s;
(3)音乐能量分布计算:
对于输入视频V,假设切分为L片,记为P1~PL,视频的背景音乐相应的切分为L个片段,在时域中计算每个音乐片段Pi的均方根能量Ei:
整段音乐的能量分布为Da=(da1,da2,...,daL),
其中
(4)视频时间复杂度分布:
对于输入视频V,假设切分为L片,记为P1~PL,对于每个视频分片Pi计算其时间复杂度的值TIi,整段视频的时间复杂度分布为Dv=(dv1,dv2,...,dvL),其中
(5)视频配乐局部匹配度:
局部匹配度用于计算视频时间复杂度分布Dv和音乐能量分布Da之间的匹配度,使用Dv和Da之间的Kullback-Leibler即KL距离来度量局部匹配度Qlocal :
所述的(三)视频配乐质量计算:最终的配乐质量由视频配乐全局匹配度和局部匹配度加权和求得:Q=βQlocal+(1-βQglobal),其中β可调参数,控制两部分的权重,默认值β=0.5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于央视国际网络无锡有限公司,未经央视国际网络无锡有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911257134.0/1.html,转载请声明来源钻瓜专利网。