[发明专利]基于张量表示的多模态视频语义概念检测方法无效

申请号：	200810059125.6	申请日：	2008-01-14
公开（公告）号：	CN101299241A	公开（公告）日：	2008-11-05
发明（设计）人：	吴飞;庄越挺;刘亚楠;郭同强	申请（专利权）人：	浙江大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/00
代理公司：	杭州求是专利事务所有限公司	代理人：	张法高
地址：	310027***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于张量表示多模态视频语义概念检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于张量表示的多模态视频语义概念检测方法，其特征在于包括如下步骤：

1)对训练集合及测试集合中的视频镜头均提取图像、音频、文本三种模态的底层特征，每个视频张量镜头由这三种底层特征形成3阶张量来表达；

2)根据视频张量镜头集合的流形空间本征结构，通过寻找转换矩阵实现对原始高维张量的维度降低及子空间嵌入；

3)采用支持张量机对降维后的视频张量镜头集合建立分类器模型；

4)对于测试镜头，由训练集合计算得到的转换矩阵进行投影后，再通过分类器模型进行语义概念检测；

所述的视频张量镜头的表达：基于视频中提取的图像、音频、文本底层特征，将每个视频镜头用一个3阶张量来表示，其中，I₁，I₂和I₃分别是图像特征、音频特征及文本特征的维数，那么每个元素的值定义为：为图像特征的值，其中1≤i₁≤I₁；为音频特征的值，其中1≤i₂≤I₂；为文本特征的值，其中1≤i₃≤I₃；其它元素的值均初始设为零。

2.根据权利要求1所述的一种基于张量表示的多模态视频语义概念检测方法，其特征在于所述的对训练集合及测试集合中的视频镜头均提取图像、音频、文本三种模态的底层特征：每个视频镜头中选取一个关键帧作为代表图像，然后提取颜色直方图、纹理和Canny边界作为图像特征；将视频镜头对应的一段音频提取出作为一个音频例子，并将音频例子分成迭加短时音频帧，提取每个短时音频帧特征，包括MFCC、质心、衰减截止频率、频谱流量及过零率，来形成帧特征向量，然后把短时音频帧特征向量的统计值作为视频镜头的音频特征；从视频中经过识别的转录文本提取TF*IDF值作为文本特征。

3.根据权利要求1所述的一种基于张量表示的多模态视频语义概念检测方法，其特征在于所述的根据视频张量镜头的流形空间本征结构，通过寻找转换矩阵实现对原始高维张量的维度降低及子空间嵌入的方法为：给定空间上的镜头数据集合X＝{X₁，X₂，…X_N}，根据张量镜头的流形空间本征结构以及谱图理论，为X上的每个张量镜头X_i|_i＝1^N寻找三个转换矩阵：J₁×I₁维的T₁ⁱ、J₂×I₂维的T₂ⁱ及J₃×I₃维的T₃ⁱ，使之映射这N个数据点到空间上的Y＝{Y₁，Y₂，…Y_N}，满足Yi|i=1N=Xi⊗1T1iT⊗2T2iT⊗3T3iT,]]>其中，J₁＜I₁，J₂＜I₂，J₃＜I₃，以此实现对原始高维张量的维度降低及子空间嵌入；当求取T₁ⁱ|_i＝1^N时，通过求解广义特征向量问题(D_U-W_U)V₁＝λD_UV₁计算得到最优化的中间转换矩阵V₁，其中，DU=ΣiDiiU1iU1iT,]]>WU=ΣijWijU1iU1jT]]>，且W是根据训练集合X所构建的最近邻图的权重矩阵，D是W的对角矩阵即Dii=ΣjWij,]]>U₁ⁱ是对X_i|_i＝1^N的一模展开矩阵mode-1 unfolding matrix即X₍₁₎ⁱ进行SVD分解得到的左矩阵，那么最终可以计算转换矩阵用同样方法求取T₂ⁱ与T₃ⁱ。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810059125.6/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于张量表示的多模态视频语义概念检测方法无效

专利文献下载