[发明专利]微博实时检索方法和装置有效

专利信息
申请号: 201210564284.8 申请日: 2012-12-24
公开(公告)号: CN103885985B 公开(公告)日: 2018-05-18
发明(设计)人: 梁丰;强闰伟;杨建武 申请(专利权)人: 北京大学;北大方正集团有限公司;北京北大方正电子有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京英赛嘉华知识产权代理有限责任公司 11204 代理人: 王达佐
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实时 检索 方法 装置
【说明书】:

发明提供了微博实时检索方法,包括:对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;获取来自用户的关键词;对关键词进行逻辑扩展得到以生成扩展检索逻辑式;以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明还提供了一种微博实时检索装置,包括:文档扩展模块,用于对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;关键词模块,用于获取来自用户的关键词;检索扩展模块,用于对关键词进行逻辑扩展得到以生成扩展检索逻辑式;匹配模块,用于以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明提高了微博检索的准确度。

技术领域

本发明涉及信息检索领域,具体而言,涉及一种微博实时检索方法和装置。

背景技术

微博具有以下特点:1.微博的长度严格限制在140字以内;2.用户在发布微博的同时还可以通过@符号和其他用户进行互动;3.用户还可以利用#符号来表明微博所属的主题。

作为一种互动性和传播性极强的工具,微博数量往往随着新闻事件的发生呈现出爆炸性的增长,从而使得在微博平台上实时信息更替得更频繁;同时,由于微博的长度限制,使得微博文本更加地碎片化,更加凸显了检索过程中词汇不匹配(vocabulary-mismatch)的问题。总的来说,微博的实时性、社会化以及碎片化特征给微博环境下的信息检索带来了巨大的挑战。

不同于传统的信息检索任务,微博实时检索除了要考虑查询的语义信息之外,还要考虑查询的时间戳(timestamp),在微博环境下,用户不仅仅希望检索到语义相关度高的文档,同时也希望看到最新发布的相关微博。针对微博实时检索所展现出来的新特性,国际权威文本检索会议(TREC)从第20届(2011年)开始增加了微博实时检索的任务,并吸引了全球近60个组织参与。同时,国内外的研究学者也开始更多地关注信息检索在微博环境下的应用。

在传统的信息检索中,待检索的文档往往包含较多的文本信息,因此只要运用查询扩展技术就可以较好地解决词汇不匹配的问题,然而在微博环境下,待检索的文档至多能包含140个汉字,仅仅运用查询扩展并不能很好地解决微博中的词汇不匹配的问题。

发明内容

本发明旨在提供微博实时检索方法和装置,以解决上述的问题。

在本发明的实施例中,提供了一种微博实时检索方法,包括:对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;获取来自用户的关键词;对关键词进行逻辑扩展得到以生成扩展检索逻辑式;以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。

在本发明的实施例中,提供了一种微博实时检索装置,包括:文档扩展模块,用于对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;关键词模块,用于获取来自用户的关键词;检索扩展模块,用于对关键词进行逻辑扩展得到以生成扩展检索逻辑式;匹配模块,用于以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。

本发明上述实施例的微博实时检索方法和装置因为采用了文档扩展,所以克服了微博字数太少导致的检索不精确的问题,提高了微博检索的准确度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了根据本发明实施例的微博实时检索方法的流程图;

图2示出了根据本发明优选实施例的微博实时检索方法的流程图;

图3示出了根据本发明优选实施例的文档扩展流程图;

图4示出了根据本发明优选实施例的查询扩展流程图;

图5示出了根据本发明优选实施例的时间因素重排序流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正电子有限公司,未经北京大学;北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210564284.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top