[发明专利]一种二维跨媒体元搜索方法和系统有效
申请号: | 200910090902.8 | 申请日: | 2009-08-14 |
公开(公告)号: | CN101996191A | 公开(公告)日: | 2011-03-30 |
发明(设计)人: | 田永鸿;周志;黄铁军;高文 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 毛燕生 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 二维 媒体 搜索 方法 系统 | ||
1.一种二维跨媒体元搜索方法,其特征在于,所述方法基于查询聚类和结果集交叠分析,包括:
1)预处理阶段:对已有的部分查询数据进行标注,并将已标注的数据样本进行数据聚类,将相似的数据样本聚类到同一个簇中,学习每个簇中来自不同子检索模型的检索结果间的融合权重,得到簇的融合权重;
2)查询分类阶段:给定新的查询请求,首先确定该查询与每个簇的距离或相似度,再计算该查询与每个簇的相关概率;
3)检索执行阶段:对该查询请求,使用至少2个子检索模型分别进行检索,并分别获得相应的检索结果集;
4)融合阶段:首先对各子检索模型的检索结果集进行交叠分析,计算所述检索结果集交叠情况下的融合权重;然后结合所述簇的融合权重和所述检索结果集的融合权重,获得对应于该查询请求的最终融合策略,输出融合后的检索结果集。
2.根据权利要求1所述的一种二维跨媒体元搜索方法,其特征在于,所述预处理阶段具体包括以下步骤:
(1)查询标注:给定一个已有的部分查询数据集合,由用户对各子检索模型的检索结果集中的数据样本进行正负例标注;
(2)数据聚类:利用特征对用户标注的数据样本进行无监督聚类,将相似的样本聚类到同一个簇中,并记录每个样本对应的簇编号;
(3)簇权重学习:使用统计学习方法为每个簇学习得到该簇中来自不同子检索模型的检索结果间的融合权重,进而得到簇的融合权重。
3.根据权利要求2所述的一种二维跨媒体元搜索方法,其特征在于,所述数据聚类依据以下步骤进行:
用户提交查询请求,并在检索后标注出结果中满足查询要求的样本;
选取全部或部分用户已标注的查询数据作为聚类的对象;
提取聚类对象的跨媒体特征,包括文本特征和视觉特征,所述视觉特征包括颜色、纹理、形状和/或关键点;以及,
用聚类方法将数据聚类为有限个簇。
4.根据权利要求2所述的一种二维跨媒体元搜索方法,其特征在于,所述聚类方法采用k均值聚类算法(K-means)、均值漂移算法(Mean Shift)或概率潜在语义分析算法(pLSA);所述权重学习方法依据用户的标注数据进行优化学习得到;所述融合权重依据子检索模型的结果集交叠在全局或者局部特征的分布情况确定。
5.根据权利要求1所述的一种二维跨媒体元搜索方法,其特征在于,所述查询分类阶段具体包括以下步骤:
(1)利用已有方法提取输入查询的文本特征和视觉特征;
(2)计算该查询与簇的相关概率,其计算方法包括但不限于计算该查询与簇中心的距离或相似度、计算该查询与簇边缘的距离。
6.根据权利要求1所述的一种二维跨媒体元搜索方法,其特征在于,所述检索执行阶段包括以下步骤:
(1)对输入查询进行分析,将查询分解为多个子查询并分别输入各子检索模型;
(2)使用各子检索模型分别进行检索。
7.根据权利要求1所述的一种二维跨媒体元搜索方法,其特征在于,所述融合阶段包括如下两个步骤:
(1)交叠权重计算:首先定义一个结果集交叠集合,利用结果集在前N个位置的结果集交叠情况,为每个子检索模型学习特定的权重;权重的确定方法包括但不限于利用交叠文档数量衡量系统性能,N为自然数;
(2)二维融合权重计算:二维融合模型对查询或样本的每一个簇以及结果集中不同区段的文档都赋予特定的融合权重,即分别在两个维度进行融合:
其一,横向融合,针对每个簇进行融合,通过使用跨媒体特征进行样本聚类和查询分类,横向融合被看作是特征层的融合;
其二,纵向融合,纵向融合被看作是结果层的融合,其利用结果集交叠进行融合,采用基于局部交叠密度的融合方法进行纵向融合,得到基于结果集局部交叠密度的融合权重;
所述二维融合权重的融合方式包括但不限于将所述横向融合和所述纵向融合的融合权重相乘。
8.根据权利要求7所述的一种二维跨媒体元搜索方法,其特征在于,所述基于结果集局部交叠密度的融合权重是指:
定义一个结果集交叠集合,设定一个移动的局部窗口,利用所述子检索模型结果集在窗口内返回结果中交叠结果的比例确定子检索模型的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910090902.8/1.html,转载请声明来源钻瓜专利网。