[发明专利]基于摘要空间特征学习的视频摘要关键帧提取方法有效
申请号: | 201510357360.1 | 申请日: | 2015-06-25 |
公开(公告)号: | CN105025392B | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 李学龙;卢孝强;赵斌 | 申请(专利权)人: | 西北工业大学 |
主分类号: | H04N21/8549 | 分类号: | H04N21/8549;G06K9/62 |
代理公司: | 西北工业大学专利中心61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 空间特征学习的视频摘要关键帧提取方法申请(专利)号CN201510357360.1 | ||
搜索关键词: | 基于 摘要 空间 特征 学习 视频 关键 提取 方法 | ||
【主权项】:
一种基于摘要空间特征学习的视频摘要关键帧提取方法,其特征在于包括以下步骤:步骤一、对视频帧进行均匀采样,然后对选取的每一个视频帧建立HSV空间的颜色直方图;其中,H通道16等分,S通道和V通道分别4等分,并将三个通道的统计数据归一化,得到每一帧的特征向量;最终,得到视频的特征矩阵X={x1,x2,...,xn},并将其作为输入数;其中n为均匀采样后视频帧的数目,xn为第n帧的特征向量;步骤二、利用Lipschitz光滑的实函数f将特征矩阵X映射到摘要空间S,其中,f(xi)是第i帧在摘要空间中的描述子;由于视频数据中存在着很多信息冗余和数据联系,视频数据并不是均匀的分布在摘要空间S,而是分布在它的一个子空间上,该子空间记为M;在子空间M上,f由一组锚点的函数值{f(aj)|aj∈A,j=1,2,…k}的线性组合近似,f(xi)≈Σj=1kwijf(aj),∀i=1,2,...,n,---(2)]]>其中,锚点集合A定义为k‑均值聚类方法得到的聚类中心,固定k的取值为视频总帧数的1/150;k‑均值聚类方法将相似的帧分到同一类别中,不同的类别具有不同的内容,聚类中心是该类别中所有特征向量的均值向量,故每一个聚类中心作为Lipschitz映射的锚点,其函数值可用来代表视频的某一方面内容,并且{f(aj)|aj∈A,j=1,2,…k}完整的代表视频内容;那么,权重wij代表了视频第i帧对视频第j方面内容的表达能力;步骤三、利用下面的目标函数优化求解权重矩阵W;min||f(xi)-Σj=1kwijf(aj)||;---(3)]]>显然,由于存在高维诅咒,很难直接对上式进行优化求解;然而,若f是一个(α,β,p)‑Lipschitz实函数,W是锚点上的非负权重矩阵,对于任意的xi,||f(xi)-Σj=1kwijf(aj)||≤α||xi-Σj=1kwijaj||+βΣj=1kwij||xi-aj||1+p,---(4)]]>其中,α,β和p都是可调参数;为了简化问题,让α=β=p=1;式(4)表明,线性组合的近似残差由(4)式的右侧限制;也就是说,在不知道映射函数f以及摘要空间S的情况下求得权重矩阵W,极大地简化了问题;优化函数如下:minWe(W)=||X-WA||F+tr(WD)s.t.wij≥0,Σjwij=1,∀i,j,---(5)]]>其中,D=((ai‑xj)2)k×n (6)D是锚点和视频帧之间的平方欧氏距离;移除了不同权重向量之间的尺度差异;为了简化问题,用来代替||X‑WA||F,优化函数变为:minWe(W)=||X-WA||F2+tr(WD)s.t.wij≥0,Σjwij=1,∀i,j;---(7)]]>步骤四、利用学到的权重矩阵W,进行代表帧的挑选;代表帧的挑选原则为:为视频的每一方面内容选取对其表达能力最强的帧作为一个代表帧;利用下面的公式进行代表帧挑选:refj=argmaxiwij,---(8)]]>其中,refj为第j个代表帧;得到了代表帧集合Ref={ref1,ref2,…,refk},可见代表帧的数目和k‑均值聚类中设定的类簇数目相同,代表帧集合Ref可以代表视频的主要内容,但要被选为关键帧,代表帧集合还要满足差异性;步骤五、关键帧提取;利用感知哈希获得代表帧的图像指纹,步骤如下:1)代表帧被转换为灰度图,并降采样为32*32的小图,不要保持纵横比;2)对降采样之后的帧进行离散余弦变换,只取离散余弦变换矩阵的左上角8*8的子矩阵;3)去除8*8矩阵左上角的第一个元素,并利用8*8矩阵的另外63个元素计算平均离散余弦变换值;4)比较8*8矩阵中元素与离散余弦变换均值的大小关系,若大于均值则将其置为1,若小于均值,则将其置为0;通过得到的每个视频帧的图像指纹,利用下式计算指纹间的汉明距离,H=Σi=18Σj=18|hij1-hij2|---(9)]]>当两个图像指纹的汉明距离H小于8时,去除两个代表帧的其中一个,最终获得关键帧集合;将关键帧按照时间顺序排列,生成视频摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510357360.1/,转载请声明来源钻瓜专利网。
- 上一篇:无线遥控整合系统
- 下一篇:智能电视机的输入法与焦点输入框的同步方法及装置