[发明专利]一种视频场景聚类及浏览方法有效

申请号：	201310317750.7	申请日：	2013-07-26
公开（公告）号：	CN103440640A	公开（公告）日：	2013-12-11
发明（设计）人：	张磊;徐千昆;黄华	申请（专利权）人：	北京理工大学
主分类号：	G06T7/00	分类号：	G06T7/00;G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频场景浏览方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域：

本发明涉及一种视频场景聚类方式，具体涉及一种基于二维图结构的视频场景聚类和非线性浏览方法，属于视频处理领域。

背景技术：

为了清晰地表述视频内容，为用户提供高效的视频浏览，一般将视频分成层次化的四层：帧、镜头、场景和视频。一个视频帧是视频数据中保存的一幅图像；镜头是一台摄像机连续拍摄的若干连续帧的集合；一个或者多个表述相同语义的连续镜头构成一个场景。

由于视频表述是一项基础性问题，这方面的工作已有许多，其中视频摘要的方式更适合视频内容的浏览。常见的视频摘要方法包括静态概要和动态略读两种。例如静态概要中层次化场景拼图(C.Barnes,D.B.Goldman,E.Shechtman,and A.Finkelstein.Video tapestries with continuous temporal zoom.ACM Transactions on Graphics,29(4):89:1–89:9,2010)等方法可以表述视频中不同层次的视频细节，但是无法提供视频浏览时的场景内容回顾；动态略读中基于视频、音频、文本流混合分析的方法（J.G.Kim,H.S.Chang,K.Kang,M.Kim,J.Kim,and H.M.Kim.Summarization of news video and its div for content-based access.International Journal of Imaging Systems and Technology,13(5):267–274,2003.）在浏览视频时可以很好地提供略读效果，但是其缺少场景类别鉴别的能力，只能表现相邻场景之间的切换关系，而无法表现非相邻场景之间的语义关系（即无法将相同语义信息的场景归为一类）。

由于图的抽象灵活性和构建便捷性，图成为目前比较流行的数据呈现形式。基于图模型的镜头分类（S.Lu,I.K.King,and M.R.Lyu.Video summarization by video structure analysis and graph optimization.In Proc.ICME,pages1959–1962,2004.）使用图对视频进行镜头层级上的建模，以搜索最优的视频内容建立动态略读。但是其图结构的视频表述还是局限在镜头层级上的底层视频分析，无法表现场景之间的关系。

发明内容：

为了使用户清晰地了解视频场景语义结构和切换过程，高效地浏览视频内容，本发明提出了一种视频场景聚类及浏览方法，根据对镜头的聚类结果，得到视频场景类别和场景之间的切换关系。

本发明的具体实现步骤如下：

一种视频场景聚类及浏览方法，该方法包括以下步骤：

步骤一、镜头边界检测与分割；

读取视频，检测视频中的切变和渐变镜头边界，根据所得镜头边界，将视频分割为多个独立的镜头；

步骤二、镜头关键帧提取

对于独立的镜头，使用光流法检测视频内容变化，当视频帧内对象运动的距离达到一定阈值时，提取关键帧，得到代表镜头的关键帧集合；

步骤三、镜头间相似度计算

对于镜头中提取的关键帧进行SIFT特征点提取，在所有镜头的关键帧集合之间进行关键帧的SIFT特征点匹配，根据匹配特征点数量定义镜头之间相似度，相似度定义如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载