[发明专利]一种区间持久性top-k查询的双哈希表关联方法有效
申请号: | 201210080249.9 | 申请日: | 2012-03-23 |
公开(公告)号: | CN102663030A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 张勇;明华;邢春晓 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 王建军;谢鑫 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种区间持久性top-k查询的双哈希表关联方法,包括:输入关键词和查询时间范围;创建倒排表,将查询时间分拆为多个间隔时间,并根据倒排表和间隔时间建立第一哈希表和第二哈希表;如果第二哈希表各倒排表中最后被查询记录的总得分小于当前被查询记录对应ID在第一哈希表中具有有效时间间隔的文档版本对应的被查询的相同文档ID在不同倒排表中的总得分,则按降序排列第二哈希表中各倒排表中最后被查询记录的总得分并输出前k个总得分对应的文档ID及其间隔时间;将具有相同文档ID对应的时间间隔相加,将相加的结果降序排列并输出前k个结果对应的文档ID。本发明实现了查询时间范围内文档版本的得分处于top-k结果集的时间长度满足阀值的方法。 | ||
搜索关键词: | 一种 区间 持久性 top 查询 双哈希表 关联 方法 | ||
【主权项】:
一种区间持久性top‑k查询的双哈希表关联方法,其特征在于,包括:步骤10,输入关键词和查询时间范围;步骤11,创建倒排表,将查询时间分拆为多个间隔时间,并根据倒排表和间隔时间建立第一哈希表和第二哈希表;倒排表中记录文档ID、该文档ID的得分以及属于该文档ID的文档版本的有效间隔时间;第一哈希表记录具有有效时间间隔的文档版本对应的文档ID、各倒排表中最后被查询的记录的得分以及具有有效时间间隔的文档版本对应的被查询的相同文档ID在不同倒排表中的总得分,第二哈希表记录具有有效时间间隔的文档版本对应的文档ID、文档ID对应的倒排表ID和各倒排表中最后被查询记录的总得分;各倒排表中最后被查询记录的总得分为当前被查询记录的得分与其余倒排表中最后被查询记录得分之和,各倒排表中最后被查询的记录的得分对应于当前被查询的记录对应的文档ID;步骤12,如果第二哈希表中各倒排表中最后被查询记录的总得分小于当前被查询记录对应ID在第一倒排表中具有有效时间间隔的文档版本对应的被查询的相同文档ID在不同倒排表中的总得分,则按降序排列第二哈希表中各倒排表中最后被查询记录的总得分并输出前k个总得分对应的文档ID及其间隔时间;步骤13,将具有相同文档ID对应的时间间隔相加,将相加的结果降序排列并输出前k个结果对应的文档ID。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210080249.9/,转载请声明来源钻瓜专利网。