[发明专利]视频语义可视化方法有效
申请号: | 201110421597.3 | 申请日: | 2011-12-15 |
公开(公告)号: | CN102523536A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 胡事民;陈韬 | 申请(专利权)人: | 清华大学 |
主分类号: | H04N21/854 | 分类号: | H04N21/854;G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 语义 可视化 方法 | ||
1.一种视频语义可视化方法,其特征在于,包括以下步骤:
a.将视频片段进行镜头切分,然后提取切分后的每个镜头的音视频特征,通过对所述音视频特征进行聚类,得到多个故事单元,并计算所述故事单元之间的相关性,所述故事单元是指所述视频片段中在时间上连续,处于同一场景,且包含同一组角色的一段故事情节;
b.对每个所述故事单元进行关键前景内容和关键背景内容提取,并将所提取的关键前景内容和关键背景内容进行合成,得到单一的故事单元表示图,其中,所述关键背景内容是指故事单元中场景尺度最大的一帧,所述关键前景内容是指对每个镜头进行基于颜色直方图和光流的视觉显著性检测和人脸检测后,对检测出的显著区域和人脸区域,按照显著性值和在视频中的持续时间进行重要性排序,排除排序靠后一定个数的重复物体及人脸后,所留下的区域;
c.通过对所述多个故事单元发生的时序以及各个故事单元之间相关性的位置优化,进行多个所述故事单元表示图的合成,得到故事单元语义可视化图;
d.用可视化符号语言在所述故事单元语义可视化图上描述故事线,得到视频语义可视化图。
2.根据权利要求1所述的方法,其特征在于,步骤a中,提取切分后的每个镜头的音视频特征具体为:提取切分后的每个镜头的颜色直方图特征和梅尔倒谱系数音频特征。
3.根据权利要求2所述的方法,其特征在于,步骤a中,使用归一化分割方法对所述音视频特征进行聚类。
4.根据权利要求3所述的方法,其特征在于,步骤a中,对所述音视频特征进行聚类具体为:通过所述颜色直方图特征与梅尔倒谱系数音频特征在时域上的距离定义两个镜头间的相似度,并构建所有镜头的相似度矩阵,使用归一化分割方法对所述相似度矩阵进行分割,得到多个镜头的聚类。
5.根据权利要求1所述的方法,其特征在于,步骤b具体为:使用光流平滑性检测和定场镜头检测的方法确定关键背景内容,并使用光流的视觉显著性检测和人脸检测确定关键前景内容,然后选择所述关键背景内容作为合成的背景,将关键前景内容按照重要性排序依次合成到所述关键背景内容上,每次合成的位置选取为所述关键背景内容上视觉显著性响应值最小的区域;
其中,镜头的光流平滑性是指镜头每个像素的时间和空间邻域内光流的方差的平均值;所述按照重要性排序的方法如下:对于使用光流的视觉显著性检测和人脸检测检测出的显著区域和人脸区域,按照显著性值和在视频中的持续时间进行排序。
6.根据权利要求5所述的方法,其特征在于,步骤b中,所述将关键前景内容按照重要性排序依次合成到所述关键背景内容上具体为:首先对合成边界进行图分割优化,找到最优边界,然后用泊松融合或透明度融合方法进行无缝合成,得到单一的故事单元表示图。
7.根据权利要求5所述的方法,其特征在于,步骤b中进行合成时,当所述关键背景内容上视觉显著性响应值低于50%时停止加入所述关键前景内容。
8.根据权利要求1所述的方法,其特征在于,步骤c具体包括:
c1、对每个故事单元表示图的大小进行调整,使该故事单元表示图与其故事单元在视频中的持续时间成正比;
c2、最小化如下以故事单元表示图位置为变量的能量方程,将故事单元表示图布置在给定大小的画布上:
E=Eovl+wsal*Esal+wrela*Erela+wtime*Etime,
其中,Eovl是故事单元所覆盖画布面积的相反数,Esal是多个所述故事单元表示图的合成图像的显著性值的相反数,Erela是根据步骤a计算得到的故事单元之间的相关性,Etime是故事单元出现的时刻,wsal、wrela、wtime为权重;
c3、对多个故事单元表示图的重合区域进行图分割优化,找到最优边界,然后用泊松融合或透明度融合方法进行无缝合成。
9.根据权利要求1~8中任一项所述的方法,其特征在于,步骤d具体为:以故事单元表示图为节点构建故事线图,对合成的故事单元语义可视化图中任意相邻两个故事单元表示图,如果所述两个故事单元间的相关性大于预设阈值,则按照故事单元发生的时序为方向在两个故事单元表示图之间增加一条有向边,遍历所有故事单元表示图后,将所述有向边所形成的环在时域上距离最大的一条有向边上切开,从而,得到视频语义可视化图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110421597.3/1.html,转载请声明来源钻瓜专利网。