[发明专利]基于自动分类和关键字标注的自动视频注释方法有效
申请号: | 201110374380.1 | 申请日: | 2011-11-22 |
公开(公告)号: | CN102508923A | 公开(公告)日: | 2012-06-20 |
发明(设计)人: | 崔斌;姚俊杰;陈琛;舒清雅 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自动 分类 关键字 标注 视频 注释 方法 | ||
1.一种基于自动分类和关键字标注的自动视频注释方法,其特在于,包括步骤:
S1:进行视频分类特征预处理;
S2:提取视频的全局特征和局部特征,全局特征用于训练SVM模型,使之能识别不同的类别,局部特征用于建立多特征与关键字对应的多特征索引模型;
S3:对来自用户的未经注释的视频,也是先提取全局特征和局部特征,之后先用全局特征让SVM识别出该视频具体的类别,再利用局部特征在多特征索引模型中检索相关的关键字进行注释;
S4:将注释结果按照一定权重排序之后返回给用户。
2.如权利要求1所述的方法,其特征在于,所述步骤S3中在识别出视频具体的类别之后和在多特征索引模型进行检索之前还包括步骤:利用预先建立的“类别-概念”的层次模型缩小关键字的范围;对于每个关键字,在特征集合里选取最优的带有权重的特征向量或者组合来表达该关键字的语义信息。
3.如权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:
S11:对视频进行镜头切割和关键帧选取;
S12:提取视频的全局静态特征和每个镜头的动态特征;
S13:对于每个镜头的动态特征向量,利用Matlab的线性回归函数按照6参数运动放射模型进行参数估计,形成6参数特征向量;
S14:用k-means聚类的方法聚集所有镜头的6维运动特征向量,并提取聚类的中心当作该视频的全局运动向量。
4.如权利要求3所述的方法,其特征在于,所述步骤S11进一步包括:
S111:从视频中提取每帧;
S112:判断和前一帧的颜色直方图之间的差异是否大于阈值A;若是,则转入S113;若否,则转入S114;
S113:判断是否局部运动或者全局运动比较厉害;若否,则进行镜头切割;
S114:判断和前一帧的颜色直方图之间的差异是否大于阈值B,其中B小于A;若是,则转入S115;若否,则转入S116;
S115:判断当前的镜头内是否保存过关键帧,若否,则保存一次;
S116:如果连续几次都到这一步,说明在此帧停留时间较长,保存为关键帧;
S117:选取关键帧。
5.如权利要求3所述的方法,其特征在于,步骤S13中获得用于Matlab运动参数估计的运动向量文件的方法为:
S131:把帧分成40*40的矩阵保存像素,设立运动保存路径;
S132:对于前一帧每一个矩阵块,搜索当前帧;
a)以6像素为步长,搜索当前帧对应位置的矩阵块;
i.不仅搜索该块周围的8块,还要搜索该位置的块本身,如果遇到帧图像的边缘,则忽略该方向的搜索;
ii遇到搜索块时,统计两个矩阵块的颜色直方图,然后计算之间的欧几里德距离;
iii.保存欧几里德距离最小的块当做目标块以作后用;
b)以3像素为步长,按照步骤a)搜索a)步得到的目标块;
c)以3像素为步长,按照步骤a)搜索b)步得到的目标块;
d)得到了最终搜索到的目标块的坐标后,计算该前一帧块运动的速度和方向;方向用两块之间的斜率表示,速度用两块中心的距离表示;
e)保存一个四维向量,块的左上角(x,y)坐标,块运动方向和速度;
S133:处理完所有块之后,得到的包括所有块的四维向量文件就是用于Matlab运动参数估计的运动向量文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110374380.1/1.html,转载请声明来源钻瓜专利网。