[发明专利]一种面向微博实时搜索的自适应索引方法有效

专利信息
申请号: 201510242074.0 申请日: 2015-05-13
公开(公告)号: CN104834726B 公开(公告)日: 2017-12-08
发明(设计)人: 赵峰;金海;柳俊;李少峰 申请(专利权)人: 华中科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 华中科技大学专利中心42201 代理人: 赵伟
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 实时 搜索 自适应 索引 方法
【权利要求书】:

1.一种面向微博实时搜索的自适应索引方法,其特征在于,所述方法具体如下:

(1)判断是否已创建第0层倒排索引i0,若是,则进入步骤(3);若否,则创建一个空间大小为π0的第0层倒排索引i0,进入步骤(2);

(2)将新的微博索引到第0层倒排索引i0

(3)判断第0层倒排索引i0里的微博数量是否达到π0,若是,则生成第0层倒排索引i0的副本即第0层副本i0`,并将第0层倒排索引i0清空,将所述新的微博插入到清空后的第0层倒排索引i0,进入步骤(4);若否,则进入步骤(2);

(4)判断是否已创建第k层索引包jk,若是,则进入步骤(6);若否,则创建一个空间大小为rk×π0的第k层索引包jk,进入步骤(5);其中,索引包为一种能存放多个倒排索引的数据结构;其中,r=2~20;k=1…m,m是索引结构的总层数;

(5)将第k-1层副本ik-1`移动到第k层索引包jk

(6)判断第k层索引包jk里的微博数量是否达到rk×π0,若是,进入步骤(7);若否,则进入步骤(5);

(7)批量合并第k层索引包jk中的所有倒排索引,获取第k层副本ik`,进入步骤(8);

(8)将第k层索引包jk清空,并将第k层副本ik`移动到所述清空后的第k层索引包jk,进入步骤(9);

(9)k=k+1,判断加1后的k是否大于p,若是,则进入步骤(10);若否,则进入步骤(4);其中,p是指索引结构可容纳的索引包数量的最大值;

(10)判断是否已创建第k层倒排索引ik,若是,则进入步骤(11);若否,则将第k层倒排索引ik的指针指向第k-1层副本ik-1`,并将第k层倒排索引ik的空间大小设为rk×π0

(11)判断第k层倒排索引ik里的微博数量是否达到rk×π0,若是,将第k层副本ik`的指针指向第k层倒排索引ik,将第k层倒排索引ik的指针指向第k-1层副本ik-1`,进入步骤(13);若否,进入步骤(12);

(12)将第k-1层副本ik-1`与第k层倒排索引ik直接合并到第k层倒排索引ik

(13)判断k是否等于m,若是,则将第k层副本ik`存放到硬盘;若否,则k=k+1,并进入步骤(10)。

2.如权利要求1所述的自适应索引方法,其特征在于,所述步骤(2)包括:

(2-1)对新的微博进行分词处理,形成二元组(tx,d),具体为:[(t1,d),(t2,d),……(tx,d)……(tn,d)];其中,第x个单词tx表示微博经过分词处理后所包含全部单词中第x个单词的id,d表示微博的id;x=1…n,n表示微博经过分词处理后所包含单词的数量;

(2-2)针对第x个单词tx,找到第0层倒排索引i0中tx指向的倒排表,并将d插入到该倒排表首位;完成将新的微博插入到第0层倒排索引i0的动作;其中,倒排表表示倒排索引中用于存放微博id的链表结构。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510242074.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top