[发明专利]一种面向Top-k查询的查询结果即时多样化的方法有效
申请号: | 201710685831.0 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107688620B | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 钟鸣;王赢 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458 |
代理公司: | 42222 武汉科皓知识产权代理事务所(特殊普通合伙) | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多样化 算法 框架 tad 面向 top 查询 结果 即时 | ||
本发明涉及一种面向Top‑k查询的查询结果即时多样化的方法,基于一种多样化算法框架TAD和基于此框架上的多样化算法DivSA。多样化算法框架TAD在查询结果流式产生的过程中,将查询结果分为两部分:其一是超过当前相关度分数上界值的查询结果;其二是低于当前相关度分数上界值的查询结果和仍没有生成的结果。在结果多样化的过程中,仅考虑第一部分的查询结果,减少了大量的计算开销。本发明的多样化算法DivSA首次使用了基于动态扩张相似图上极大独立集计算的多样化方法,且提出了一种增量式算法计算动态扩张相似图的极大独立集,给出了一个结果多样化过程完备而高效的解决方案。
技术领域
本发明涉及top-k查询解释及查询结果多样化技术领域,尤其涉及一种基于多样化算法框架TAD的针对动态扩张相似图上极大独立集的多样化算法。
背景技术
查询结果多样化是一项近年来非常热门的信息处理技术。它旨在从庞大的查询结果集中挑选出一个子集,使得该子集中的查询结果不仅与查询尽可能相关,而且互相之间信息冗余度尽可能低。
这些查询结果多样化方法都假定查询结果集已经获得,并从中搜索得到多样化的top-k查询结果。现有技术中,有将top-k查询的结果构建成一个多样性图,图中顶点代表搜索结果,边代表邻接的两个顶点是相似的,它的目标是寻找k个互不邻接的顶点并使得其相关性评分总和最大。现有技术中,还有构造了一个边际增益的目标函数,每次选择一个查询结果作为多样化结果时,考虑其对查询的相关性和对已有多样化结果的相似性,选择增益最大的查询结果成为新的多样化结果。前两者在考虑多样性问题的时候,关注的是局部多样性,即仅考虑了多样化结果集中元素的互不相似性。现有技术中,还有加入了覆盖度的概念来考虑结果集的全局多样性。它使用欧式距离来衡量结果之间的相似程度,以一个结果为中心,其特定半径范围内的结果都与其相似,定义该结果覆盖了其半径范围内的搜索结果。它的目标在于选取出能覆盖所有搜索结果的代表结果集,这同时也保证了结果集一定的多样化程度。
然而,随着各种应用中数据量的急剧增长,生成所有查询结果的时间和空间代价非常高昂,因而top-k查询成为了普遍的选择。Top-k查询旨在找出与查询相关度最高的k个结果,其特点是在满足一定假设的前提下不必遍历所有结果,能在top-k结果被发现后立即终止处理。但top-k查询给多样化技术带来了新的挑战,要求多样化必须嵌入到查询处理过程中,而不是在查询处理完成之后再进行。
发明内容
针对以上技术问题,本发明提出了一种多样化算法框架TAD(
多样化算法框架TAD的提出是基于减少冗余计算的考虑,由于搜索的结果并不是按照其相对于查询的相关度降序排列的,如果计算所有的生成结果之间的相似度,将是巨大的开销,因此TAD将搜索结果分成两部分,一部分是超过当前相关度分数上界值的搜索结果,设为集合T,另一部分是低于当前相关度分数上界值的搜索结果和仍没有生成的结果。相关度分数上界值指的是目前可能生成的搜索结果相对于关键词的相关度分数的最大值,将此值记为UpperBound,大部分经典的top-k查询处理算法都提供了十分有效的相关度分数上界值。
一种面向Top-k查询的查询结果即时多样化的方法,其特征在于,包括以下步骤:
步骤1:基于流式产生的查询结果,使用nextTop模块得到一个查询结果,将该查询结果加入到集合T中,nextTop模块的具体执行步骤包括:
步骤1.1:基于流式产生的查询结果,使用一个优先队列Que存储当前生成的查询结果,按照其对于查询的相关度从大到小在Que中依次排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710685831.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种日志数据处理方法及装置
- 下一篇:一种文案的优化方法和系统