[发明专利]检索装置和检索方法有效

专利信息
申请号: 201410197261.7 申请日: 2014-05-12
公开(公告)号: CN105095270B 公开(公告)日: 2019-02-26
发明(设计)人: 强闰伟;费跃;杨建武 申请(专利权)人: 北京大学;北大方正集团有限公司;北京北大方正电子有限公司
主分类号: G06F16/9536 分类号: G06F16/9536
代理公司: 北京友联知识产权代理事务所(普通合伙) 11343 代理人: 尚志峰;汪海屏
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 检索 装置 方法
【说明书】:

发明提供了一种检索装置和检索方法,其中,检索方法包括:在接收到查询语句和微博文档时,对查询语句和微博文档进行预处理,并创建原始查询模型和原始文档模型;从外部知识数据库中获取与原始查询模型相关联的知识条目,并根据原始查询模型和知识条目确定知识查询语句;根据知识查询语句创建知识查询模型,并根据知识查询模型和原始查询模型确定扩展查询模型;在微博文档中包含社交标签时,根据社交标签从语料集中查找出微博文档对应的社交邻居文档,并创建社交邻居文档模型;根据社交邻居文档模型、原始文档模型和语料集得到扩展文档模型,并确定目标检索结果。通过本发明的技术方案,可以使用户在微博上快速地查询到大量准确的实时性信息。

技术领域

本发明涉及检索技术领域,具体而言,涉及一种检索装置和一种检索方法。

背景技术

微博是一个基于用户关系的轻量级信息传播平台,用户可以广播并分享关于他的活动及状态信息。微博的流行带来了对微博检索的需求,用户也逐渐习惯在微博上进行各种内容的搜索。相比传统的博客平台,微博平台有如下特点:(1)微博文本很短(通常被限制在140字之内),使得用户可以随时随地发布关于他们的活动,观点和状态。(2)为了扩充短小的微博所表示的内容,用户经常会给一个短链接来指向更丰富的网页内容。(3)用户在发布微博时还可以给微博指定一个话题,用‘#’符号将话题包围起来。(4)用户还可以利用‘@’符号提及其他用户,使得让微博具有更好的交互性。

与传统的Web检索不同,微博环境下的检索面临很大的挑战。作为一种互动性和传播性极强的轻量级博客平台,微博的数量通常随着新闻事件呈爆炸性的增长。由于微博文本很短,导致了微博检索中严重的词汇不匹配问题,即文档虽然和查询相关,但是其使用的词与查询词不同。用户有时候使用专业性较强的专有名词或缩写进行查询时,这种问题更加的突出。此外,由于每个字在文本中一般只出现一次,这又给传统模型的模型估计带来了困难,比如对文档的语言模型建模。

因此,如何使用户快速检索到更加丰富、准确的实时相关内容成为亟待解决的问题。

发明内容

本发明正是基于上述问题,提出了一种新的技术方案,包括一种检索装置和一种检索方法,可以解决现有技术中微博检索匹配率低的问题,使用户在使用微博进行信息检索时,快速检索到丰富准确的实时性信息。

有鉴于此,本发明提出了一种检索装置,包括:建模单元,用于在接收到查询语句和微博文档时,对所述查询语句和所述微博文档进行预处理,并根据预处理后的查询语句和微博文档创建原始查询模型和原始文档模型;确定单元,连接至所述建模单元,用于从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句;查询扩展单元,连接至所述确定单元,用于根据所述知识查询语句创建知识查询模型,并根据所述知识查询模型和所述原始查询模型确定扩展查询模型;查找单元,连接至所述查询扩展单元,用于在所述微博文档中包含社交标签时,根据所述社交标签从语料集中查找出所述微博文档对应的社交邻居文档,并创建社交邻居文档模型;文档扩展单元,连接至所述查找单元,用于根据所述社交邻居文档模型、所述原始文档模型和所述语料集得到扩展文档模型,并根据所述扩展文档模型确定目标检索结果。

在该技术方案中,用户在微博上进行一般性查询时,分词工具将接收到的查询语句进行分词(预处理),以建立原始的查询模型,但该原始的查询模型对应的检索结果比较少,甚至还不包含用户需要检索的信息,因此,需要从外部知识数据库中获取与该原始查询模型相关联的信息,但这些相关信息数量可能过于庞大,同时又包含很多用户不需要的信息,所以,通过根据原始查询模型对相关联信息进一步筛选,可以使用户检索到大量的有用的信息量;用户在微博上搜索文档时,检索装置将依据该文档中包含的社会标签(包括:话题标签(#)、短链接、提及标签(@)),查询至少包含一个相同社交标签的最近的文档,并建立扩展文档模型,这样用户在查询文档时,也会检索到大量的相关文档。因此,通过本技术方案,用户在微博上进行检索时,可以快速地查询到大量准确的实时性信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正电子有限公司,未经北京大学;北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410197261.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top