[发明专利]一种视频语义场景分割及标注方法有效
申请号: | 201810218659.2 | 申请日: | 2018-03-16 |
公开(公告)号: | CN108537134B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 白双 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 语义 场景 分割 标注 方法 | ||
本发明所述的视频语义场景分割及标注方法,包括以下步骤:基于有标注场景图像集离线训练深度卷积神经网络构建场景分类器;计算视频序列中相邻视频帧之间的相似度并对视频帧按照相似度分组;自适应调节相似度阈值获得视频帧帧数分布均匀的视频帧分组;合并包含帧数过少的帧分组,分裂包含帧数过多的帧分组以对视频帧分组结果重新调整;为每个视频帧分组选择代表性视频帧;利用场景分类器识别视频帧分组的场景类别;对视频序列进行语义场景分割及标注。本发明为解决视频的检索和管理问题提供了有效手段,并提高用户观看视频的体验和乐趣。
技术领域
本发明涉及计算机视频处理技术领域,尤其涉及一种视频语义场景分割及标注方法。
背景技术
随着数字多媒体以及互联网技术的快速发展,每天都有大量的数字视频数据产生。海量的视频数据对视频的有效检索和管理构成了巨大的挑战。将视频按照语义场景进行分割并进行标注对于解决视频检索和管理问题具有重要的作用。此外,对视频内容按语义场景进行分割及标注可以有效地提高用户观看视频的体验和乐趣。目前,场景识别主要包括静态图像场景识别和视频场景识别。其中,静态图像场景识别是指将静态场景图像归类为对应的语义场景类别。而视频场景识别是指将事先分割好的视频片断归类为对应的语义场景类别。当前的场景识别技术中还没有将包含多种语义场景的视频按照语义进行分割并标注的有效方法。
发明内容
本发明针对现有技术的不足,提出一种视频语义场景分割及标注方法,能够将视频按语义场景进行分割并为分割得到的视频片段进行语义标注,具体的技术方案如下:
本发明提供了一种视频语义场景分割及标注方法,包括以下步骤:
S1:基于有标注场景图像集,离线训练深度卷积神经网络构建多类场景分类器;
S2:计算视频序列中相邻帧之间的相似度,通过将所述相似度与设定阈值作对比得到视频序列的视频帧分组;
S3:调整所述视频帧分组,并根据设定指标从各个所述视频帧分组中选取代表性视频帧;
S4:利用所述多类场景分类器对所述代表性视频帧进行分类;
S5:基于所述多类场景分类器的分类结果对所述视频帧分组进行语义标注以及融合,完成视频语义场景分割及标注。
进一步地,所述S1还包括:
S11:选取有标注场景的图像集,或者构建设定场景的图像集;
S12:基于所述选取或构建的图像集训练深度卷积神经网络,基于深度卷积神经网络构建场景分类器,令所述场景分类器能够预测输入图像属于各个场景类别的概率;
S13:提取所述深度卷积神经网络的多个中间层,利用向量化方法把每个中间层的输出进行向量化,然后基于神经网络层的输出,训练Softmax分类函数构建场景分类器。
进一步地,所述S2还包括:
从视频序列的每幅视频帧中提取能够反映视频帧内容的RGB颜色直方图作为相应视频帧的特征向量,基于所述视频帧的特征向量计算相邻两幅视频帧之间的欧几里得距离,接着将所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间,得到相似度度量;
将相邻两帧之间的相似度与设定阈值进行比较,如果相邻两帧之间的相似度大于设定阈值则将这两帧归入相同的视频帧分组,否则将这两帧归入不同的帧分组。
进一步地,计算相邻两幅视频帧之间的欧几里得距离d为:
其中,vi和vj表示相邻两帧的特征向量,K表示特征向量的维度;
所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间,映射方式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810218659.2/2.html,转载请声明来源钻瓜专利网。