[发明专利]基于自动分类和关键字标注的自动视频注释方法有效
申请号: | 201110374380.1 | 申请日: | 2011-11-22 |
公开(公告)号: | CN102508923A | 公开(公告)日: | 2012-06-20 |
发明(设计)人: | 崔斌;姚俊杰;陈琛;舒清雅 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自动 分类 关键字 标注 视频 注释 方法 | ||
技术领域
本发明涉及视频识别技术领域,特别是涉及一种基于自动分类和关键字标注的自动视频注释方法。
背景技术
随着科学技术的进步,特别是多媒体数字化技术的发展和推广,存储成本的降低,网络传输带宽的增长,计算机处理速度的提高,以及高性能计算环境的普及化,现代信息检索所处理的对象和规模都有了很大的变化。包含各种类型数据如文本、图像、音频、视频等的多媒体信息,飞速膨胀逐渐成为信息的主流,并对人们的生活和社会的发展产生了重要的影响。多媒体信息有其特点,一方面它的信息量很大,百闻不如一见,一图值千言都说明了这个事实,另一方面它的抽象和结构化程度较低,不利于进行有效的管理。如何有效地提取多媒体信息中的相关内容已成为一个急需解决的问题。
随着数码摄像机和电脑越来越普及到生活中,通过因特网共享视频也越来越普遍。如何进行视频检索也成为一个热门的话题,现今很多专家提出直接利用视频的内容信息进行检索,即Content-basedVideo Retrieval。这种检索是借助于对视频中的视觉信息进行从低层到高层的处理,分析和理解的过程中获取其内容的,并根据内容进行检索。这里所说的“内容”是指视频的颜色,纹理,运动等高维视觉特征向量。虽然这些“内容”可以更好的表达视频的信息,但是这种检索方式需要通过比对这些高维特征信息进行搜索,需要耗费大量的时间和资源,是一般网络用户所不能接受的,也是现阶段不可行的,因此现今各大网站提供的视频检索,比如Google,MSN,YouTube,百度等,都是依赖于对视频的文本元数据的描述来进行检索的。他们的搜索引擎不能像基于内容的检索分析视频中的每个图片,更不能精确到每个像素,因此就不能搜索没有注释过的视频。对于因特网上存在的大量杂乱的视频,对于视频的自动词语注释是一个很关键的技术来保证视频在网上的“可见性”,进而方便用户浏览搜索下载。
毋庸置疑,让计算机能识别出来视频所表现的语义是一件非常困难的事情。流程图如图1所示,首先需要分析并提取视频的特征,其次我们还需要用大量的样本训练计算机,使之可以识别一些确定的物品或者语义,也就是建立特征和关键词之间的联系,最后,对于一个没有标识的视频,还需要搜索原有的库,把与之相近特征的关键字提取出来,才能完成对视频的注释。其中,1表示镜头检测,2表示特征提取,3表示相似度匹配,4表示索引。
发明内容
(一)要解决的技术问题
本发明的目的在于提供一种自动视频注释方法,以提高视频标注的性能。
(二)技术方案
为了解决上述技术问题,本发明提供一种基于自动分类和关键字标注的自动视频注释方法,包括步骤:
S1:进行视频分类特征预处理;
S2:提取视频的全局特征和局部特征,全局特征用于训练SVM模型,使之能识别不同的类别,局部特征用于建立多特征与关键字对应的多特征索引模型;
S3:对来自用户的未经注释的视频,也是先提取全局特征和局部特征,之后先用全局特征让SVM识别出该视频具体的类别,再利用局部特征在多特征索引模型中检索相关的关键字进行注释;
S4:将注释结果按照一定权重排序之后返回给用户。
优选地,所述步骤S3中在识别出视频具体的类别之后和在多特征索引模型进行检索之前还包括步骤:利用预先建立的“类别-概念”的层次模型缩小关键字的范围;对于每个关键字,在特征集合里选取最优的带有权重的特征向量或者组合来表达该关键字的语义信息。
优选地,所述步骤S1进一步包括:
S11:对视频进行镜头切割和关键帧选取;
S12:提取视频的全局静态特征和每个镜头的动态特征;
S13:对于每个镜头的动态特征向量,利用Matlab的线性回归函数按照6参数运动放射模型进行参数估计,形成6参数特征向量;
S14:用k-means聚类的方法聚集所有镜头的6维运动特征向量,并提取聚类的中心当作该视频的全局运动向量。
优选地,所述步骤S11进一步包括:
S111:从视频中提取每帧;
S112:判断和前一帧的颜色直方图之间的差异是否大于阈值A;若是,则转入S113;若否,则转入S114;
S113:判断是否局部运动或者全局运动比较厉害;若否,则进行镜头切割;
S114:判断和前一帧的颜色直方图之间的差异是否大于阈值B,其中B小于A;若是,则转入S115;若否,则转入S116;
S115:判断当前的镜头内是否保存过关键帧,若否,则保存一次;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110374380.1/2.html,转载请声明来源钻瓜专利网。