[发明专利]一种基于声音和视觉的多模态视频场景分割方法在审
申请号: | 201811182971.7 | 申请日: | 2018-10-11 |
公开(公告)号: | CN109344780A | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 张奕;谢锦滨 | 申请(专利权)人: | 上海极链网络科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G10L25/57;G10L25/30 |
代理公司: | 上海海贝律师事务所 31301 | 代理人: | 范海燕 |
地址: | 202164 上海市崇明区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉 镜头 多模态视频 场景分割 声音特征 声音特征向量 镜头分割 时间边界 输入视频 同一场景 语义 场景 合并 分割 | ||
本发明公开一种基于声音和视觉的多模态视频场景分割方法,方法包括以下步骤:步骤S1:对输入视频进行镜头分割,得到各镜头片段;步骤S2:在分割得到的各镜头片段上进行视觉和声音特征提取,得到镜头对应的视觉和声音特征向量;步骤S3:根据视觉和声音特征,将相邻的属于相同语义的镜头合并入同一场景,得到新的场景时间边界。
技术领域
本发明涉及一种视频场景分割方法,尤其涉及一种基于声音和视觉的多模态视频场景分割方法。
背景技术
时间维度上的视频分割是视频结构分析的基础步骤和重要环节。其目的是将原始视频按照其内容结构分段,将包含相同相近内容的部分分到相同片段内,而将不同内容的部分分割开。视频内容结构按照语义层级的高低可分为镜头和场景。镜头是摄像机一次连续拍摄到的视频片段。在一个镜头内图像的变换原因通常为摄像机和物体对象的运动以及光源的变化,是一个渐变而非突变过程。场景是由若干个在语义上相关的连续镜头组成的能够表达共同语义内容的视频片段。场景分割的目标是要找到场景的时间边界,将视频按语义分割为多个场景片段。
现有的视频场景分割方法多主要利用视觉特征信息,通过分析视频各帧图像之间的联系进行,往往忽视声音作为视频内容的重要部分,同样为场景分割提供了大量有用信息。目前尚缺乏一种有效的将声音信息与视觉信息有效结合的多模态联合建模方法,提高场景分割的准确率。
发明内容
本发明的目的是联合利用声音和视觉特征对视频场景进行建模,寻找视频场景的时间边界,对视频按场景语义进行分割。其核心是设计一种声音视觉多模态特征融合框架,使各模态之间互为补充,弥补单一特征模态的不足。
为了实现以上目的,本发明提供的一种基于声音和视觉的多模态视频场景分割方法,分为以下步骤:
步骤S1:对输入视频进行镜头分割,得到各镜头片段;
步骤S2:在分割得到的各镜头片段上进行视觉和声音特征提取,得到镜头对应的视觉和声音特征向量;
步骤S3:根据视觉和声音特征,将相邻的属于相同语义的镜头合并入同一场景,得到新的场景时间边界。
其中,视频镜头分割采用跟踪流与全局图像颜色分布综合特征来判断镜头切换点。
其中,分割得到的各镜头片段上的视觉特征采用镜头内提取的图像关键帧的场景特征来表示,该场景特征可通过将图像关键帧输入预训练的场景分类卷积神经网络获得。
其中,分割得到的各镜头片段上的声音特征采用镜头内各声音关键帧对应的特征描述来表示,该特征可通过将声音关键帧对应的频谱图输入到预训练的声音分类卷积神经网络获得。
其中,相同语义镜头合并的标准由一个似然概率函数给出,该函数的输入为一组镜头合并后的场景分割边界,输出为该组场景分割边界的似然概率,通过求取极大似然概率对应的场景分割边界值来得到最优的场景分割边界。
本发明的优点和技术效果:从具体实施例可以看出本发明的优点和技术效果,充分利用视频中包含的声音和视觉信息,通过概率模型将其有效地组合,建立联合模型,弥补单一模态特征各自的不足,达到提升场景分割准确率的效果。
附图说明
图1本发明基于声音和视觉的多模态视频场景分割的基本流程。
图2通过镜头合并生成场景分割边界示意图。
具体实施方式
下面结合附图详细说明技术方案中所涉及的各个细节问题。应该指出的是,所描述的实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本发明的实施流程如图1所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海极链网络科技有限公司,未经上海极链网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811182971.7/2.html,转载请声明来源钻瓜专利网。