[发明专利]基于相似度矩阵迭代的跨媒体语义理解和优化方法无效
申请号: | 201110424625.7 | 申请日: | 2011-12-16 |
公开(公告)号: | CN102521368A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 张鸿;胡威 | 申请(专利权)人: | 武汉科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430081 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于相似度矩阵迭代的跨媒体语义理解和检索方法。首先对图像数据库中提取的视觉特征向量进行主成分提取和去噪,对音频数据库中提取的听觉特征向量进行模糊聚类得到音频索引矩阵,进而根据核函数和典型相关性分析方法,构建低维子空间S;利用多模态样本在子空间中的多重数据关系进行相似度矩阵迭代,通过图像和音频之间的跨媒体相关性来优化图像相似度矩阵A和音频相似度矩阵B;根据跨媒体距离度量,计算跨媒体候选集,并根据用户的相关反馈,计算未标记样本成为正例或成为负例的条件概率,对跨媒体语义理解进行优化。该方法挖掘了多模态样本之间的多重数据关系,得到了较好的检索结果。 | ||
搜索关键词: | 基于 相似 矩阵 媒体 语义 理解 优化 方法 | ||
【主权项】:
1.一种基于相似度矩阵迭代的跨媒体语义理解和检索方法,其特征在于包括如下步骤:第一步:基于多模态特征分析的子空间映射(1) 从图像数据库中提取HSV颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,构成视觉特征向量,采用主成分分析方法进行降维和去噪,得到视觉特征矩阵;从音频数据库中提取质心、衰减截至频率、频谱流量和均方根四种音频特征,构成听觉特征向量,采用模糊聚类的方法对听觉特征向量进行索引,得到听觉特征矩阵;(2)通过非线性映射将视觉特征矩阵和听觉特征矩阵映射到核空间,在核空间中采用典型相关性分析方法进行相关性保持映射,计算目标函数:(1)
式(1)中:表示组合系数,T表示转置运算,max表示最大值,通过拉格朗日乘子法求解式(1)中的目标函数,映射得到低维子空间;第二步、基于矩阵迭代的语义理解与相似度优化根据低维子空间中的欧氏距离,计算得到图像与音频之间的跨媒体相关性矩阵C、图像相似度矩阵A和音频相似度矩阵B,采用下列公式对图像相似度矩阵A和音频相似度矩阵B进行循环迭代: (2)
式(2)中:表示图像相似度矩阵A的权重参数,表示音频相似度矩阵B的权重参数,表示衰减因子,n表示迭代的次数,值域为正整数,T表示转置运算;若图像相似度矩阵A和音频相似度矩阵B在式(2)的第n次迭代和第n-1次迭代过程中,变化量趋近于零时,则式(2)达到收敛状态,即完成对图像相似度矩阵A和音频相似度矩阵B的优化;第三步、跨媒体距离度量对用户提交的查询例子,根据低维子空间中的跨媒体距离度量,计算与查询例子相关的跨媒体候选集,跨媒体距离度量如下: (3)
式(3)中:r表示查询例子,k表示数据库中与查询例子不同模态的样本,min表示取最小值,表示音频数据库,I表示图像数据库,表示跨媒体相关性矩阵C中第r行第k列的元素值,表示跨媒体相关性矩阵C中第r行第j列的元素值,表示音频相似度矩阵B中第k行第j列的元素值,表示图像相似度矩阵A中第k行第j列的元素值;根据式(3),找出与查询例子之间的跨媒体距离度量结果较小的样本,作为跨媒体候选集,返回给用户做相关反馈;第四步、基于相关反馈的条件概率计算(1)用P表示用户在相关反馈过程中标记的正例集合,N表示用户在相关反馈过程中标记的负例集合,定义正反馈向量f +和负反馈向量,f -,维数均为样本数目,赋值如下:正反馈向量f + :所有元素初值为0,将集合P中正样本在f +中对应位置的元素值置为1;负反馈向量f - :所有元素初值为0,将集合N中负样本在f -中对应位置的元素值置为-1;(2)计算未标注样本成为正例的条件概率f +(k)和未标注样本成为负例的条件概率f -(k): (4) |
(5)
式(4)和(5)中:表示图像相似度矩阵A中第k行的所有元素,表示音频相似度矩阵B中第k行的所有元素,r表示查询例子,表示音频数据库,I表示图像数据库, max表示取最大值,min表示取最小值, f + 表示正反馈向量,f - 表示负反馈向量;第五步、跨媒体语义理解的优化(1) 根据条件概率的计算结果,按照下述规则,计算需要优化的四种样本集: 规则1: 选择使取值较大的样本,构成第一集合V1,规则2: 选择使取值较大的样本,构成第二集合V2,规则3: 选择使取值较大的样本,构成第三集合V3,规则4: 选择使取值较大的样本,构成第四集合V4;(2) 对于第一集合V1和第三集合V3中的样本,减小与正例集合P之间的距离:,其中为常参数,即:跨媒体相关性矩阵C中第x行第y列的元素值乘以一个大于零且小于1的常数;对于第二集合V2和第四集合V4中的样本,减小与负例集合N之间的距离,即:;对于正例集合P中的样本,缩小与查询例子之间的距离,即:,其中,r表示查询例子;对于负例集合N中的样本,增大与查询例子之间的距离,即:,其中,为常参数;(3)按照式(3)再次计算出与查询例子最相关的不同模态的多媒体样本,作为优化后的跨媒体检索结果返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学,未经武汉科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110424625.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种电池级碳酸锂的制备方法
- 下一篇:腹顶自卸车保险支撑总成