[发明专利]一种视频场景聚类及浏览方法有效
申请号: | 201310317750.7 | 申请日: | 2013-07-26 |
公开(公告)号: | CN103440640A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 张磊;徐千昆;黄华 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 场景 浏览 方法 | ||
技术领域:
本发明涉及一种视频场景聚类方式,具体涉及一种基于二维图结构的视频场景聚类和非线性浏览方法,属于视频处理领域。
背景技术:
为了清晰地表述视频内容,为用户提供高效的视频浏览,一般将视频分成层次化的四层:帧、镜头、场景和视频。一个视频帧是视频数据中保存的一幅图像;镜头是一台摄像机连续拍摄的若干连续帧的集合;一个或者多个表述相同语义的连续镜头构成一个场景。
由于视频表述是一项基础性问题,这方面的工作已有许多,其中视频摘要的方式更适合视频内容的浏览。常见的视频摘要方法包括静态概要和动态略读两种。例如静态概要中层次化场景拼图(C.Barnes,D.B.Goldman,E.Shechtman,and A.Finkelstein.Video tapestries with continuous temporal zoom.ACM Transactions on Graphics,29(4):89:1–89:9,2010)等方法可以表述视频中不同层次的视频细节,但是无法提供视频浏览时的场景内容回顾;动态略读中基于视频、音频、文本流混合分析的方法(J.G.Kim,H.S.Chang,K.Kang,M.Kim,J.Kim,and H.M.Kim.Summarization of news video and its div for content-based access.International Journal of Imaging Systems and Technology,13(5):267–274,2003.)在浏览视频时可以很好地提供略读效果,但是其缺少场景类别鉴别的能力,只能表现相邻场景之间的切换关系,而无法表现非相邻场景之间的语义关系(即无法将相同语义信息的场景归为一类)。
由于图的抽象灵活性和构建便捷性,图成为目前比较流行的数据呈现形式。基于图模型的镜头分类(S.Lu,I.K.King,and M.R.Lyu.Video summarization by video structure analysis and graph optimization.In Proc.ICME,pages1959–1962,2004.)使用图对视频进行镜头层级上的建模,以搜索最优的视频内容建立动态略读。但是其图结构的视频表述还是局限在镜头层级上的底层视频分析,无法表现场景之间的关系。
发明内容:
为了使用户清晰地了解视频场景语义结构和切换过程,高效地浏览视频内容,本发明提出了一种视频场景聚类及浏览方法,根据对镜头的聚类结果,得到视频场景类别和场景之间的切换关系。
本发明的具体实现步骤如下:
一种视频场景聚类及浏览方法,该方法包括以下步骤:
步骤一、镜头边界检测与分割;
读取视频,检测视频中的切变和渐变镜头边界,根据所得镜头边界,将视频分割为多个独立的镜头;
步骤二、镜头关键帧提取
对于独立的镜头,使用光流法检测视频内容变化,当视频帧内对象运动的距离达到一定阈值时,提取关键帧,得到代表镜头的关键帧集合;
步骤三、镜头间相似度计算
对于镜头中提取的关键帧进行SIFT特征点提取,在所有镜头的关键帧集合之间进行关键帧的SIFT特征点匹配,根据匹配特征点数量定义镜头之间相似度,相似度定义如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310317750.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防触电插座
- 下一篇:采油用球形空气包及其空气包材质