[发明专利]滑动窗口下基于位置top-k关键词查询的优先查询算法及系统有效
申请号: | 201710864389.8 | 申请日: | 2017-09-22 |
公开(公告)号: | CN107506490B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 毛睿;李荣华;陆敏华;王毅;罗秋明;商烁;刘刚 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332 |
代理公司: | 上海宏京知识产权代理事务所(普通合伙) 31297 | 代理人: | 王函 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 滑动 窗口 基于 位置 top 关键词 查询 优先 算法 系统 | ||
本发明公开了一种动窗口下基于位置top‑k关键词查询的优先查询算法及系统,包括如下步骤:第一步,输入构建好的四叉树索引模型和查询节点以及k,初始化结果集;第二步,进行剪枝操作,得到候选结果集;第三步,使用一个最大堆C存储候选结果集中的每个词语以及其分值;第四步,当结果集的大小小于k时,依次取出C中的队列头的词语,从根节点遍历到叶节点找到其精确分值,放入队列;第五步,循环第四步,当队列头的词语的分值等于该词在叶节点的精确分值,放入结果集中;第六步,当结果集的大小等于k时,返回结果集。本发明能根据词频和位置邻近度有效修剪搜索空间,在保证不会遗失任何候选词的情况下能避免不必要的计算,大大降低了计算成本,提升查询速度。
技术领域
本发明属于计算机领域,具体涉及查询算法,尤其涉及一种适用于滑动窗口下基于位置top-k关键词查询的优先查询算法。此外,本发明还涉及一种滑动窗口下基于位置top-k关键词查询的优先查询系统。
背景技术
随着社交媒体、云存储和基于位置的服务的激增,包含文本和地理信息的讯息(例如,地理标签的推文)数量飙升。这样的消息,可以被建模为地理文本数据流通常能够为不同类型和规模的各种本地时间提供第一手信息,包括一个地区的新闻故事,城市灾难,当地商业促销以及城市中公众关注的热门话题等。
基于位置的社交媒体的数据流具有以下性质:(1)突发性质—如果用户不够快速地发现数据,一些关于特定主题的讯息会被很快深埋到数据流中[Ozsoy,Makbule Gulcin,Kezban Dilek Onal,and Ismail Sengor Altingovde.Result diversification fortweet search.In WISE,2014.];(2)局部意向的本质—来自不同地点的用户可能会发布与不同话题相关的讯息[Kaiqi Zhao,Lisi Chen,and Gao Cong.Topic exploration inspatio-temporal document collections.In SIGMOD,2016.]。每一秒钟基于位置的社交媒体生成的讯息成千上万条,因此维护占据用户心目中的总结非常重要。
为了解决这个问题,现有的提案[A.Skovsgaard,D.Sidlauskas,C.S.Jensen.Scalable top-k spatio-temporal term querying.In ICDE,2014.]旨在在用户指定的时空区域内找到内容中局部最流行的前k个关键词。然而,在大多数情况下,用户在空间域上指定举行区域是困难的。相反,一个用户也许更倾向同时考虑词频和位置邻近度的排序列表。
基于用户需求,本发明考虑了一种新型的top-k查询,基于位置的top-k关键词查询(LkTQ),通过考虑在滑动窗口上的地理文本数据的词频和位置邻近度来返回top-k局部最流行的关键词。
图1提供了LkTQ的一个简单例子。我们考虑在中国地图上的10个带有地理标签的推文。如图1(a)所示,带有正方形标签的点代表查询位置。带有圆圈标签的点是推文的地址位置,也就是地理文本消息。对于每个地理文本信息,我们标出了其文本信息及其到查询点的距离。LkTQ的结果是基于位置感知频率分值的前k个局部最流行的关键词,如图1(b)所示。一个词的分值是通过关键词频率与包含该词的消息与查询点之间的距离邻近度的线性组合来计算的。
解决LkTQ问题的一个直接方法是评估当前滑动窗口内消息的所有词。具体来说,对于每一个这样的词,我们计算其余查询点之间的位置感知频率分值。然而,这种方法对于大量的地理文本消息将是非常昂贵的。为了有效地处理LkTQ,我们需要应对以下挑战。首先,返回LkTQ的确切结果在计算上是非常昂贵的。因此,我们需要寻求高精度的近似解。第二,位置感知频率分值以连续的方式衡量词频和位置邻近度。因此,提出一种混合索引结构及其对应的算法,使得可以同时根据词频和位置邻近度有效地修剪搜索空间是非常有意义的。第三,由于LkTQ的滑动窗口场景,索引机制必须能够处理具有高到达率的地理文本数据流。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710864389.8/2.html,转载请声明来源钻瓜专利网。