[发明专利]网络信息搜索方法及系统有效

专利信息
申请号: 200810088029.4 申请日: 2008-03-27
公开(公告)号: CN101246499A 公开(公告)日: 2008-08-20
发明(设计)人: 胡景贺 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京汇泽知识产权代理有限公司 代理人: 张若华;赵军
地址: 518044广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网络 信息 搜索 方法 系统
【说明书】:

技术领域

发明涉及互联网的搜索引擎技术,尤其涉及一种网络信息搜索方法以及网络信息搜索系统。

背景技术

网络搜索引擎是目前互联网上使用频繁的一种服务系统。网络搜索引擎集中了千千万万个站点的信息,主要功能是帮助用户搜索这些站点,还会将一些好的站点进行分类,以方便用户查找相关资料。

目前大部分搜索引擎,包括网页搜索引擎、新闻搜索引擎,都具备相当的热点敏感度。所述热点是指在一段时间内受用户关注程度较高的信息,在一段时间内广为人知,具有很强的实效性和暂时性,同时经过一段时间后将被其它信息埋没,受关注程度会急剧下降。代表一个热点信息的词语或者与热点信息有较强关系的词语称为热点相关检索词,本文简称为热词。具备热点敏感特性功能的搜索引擎也可以称为热点敏感搜索引擎,例如新闻搜索引擎、论坛搜索引擎等,这些搜索引擎的搜索结果实时性较强,针对当前的热点可以调整搜索结果排序,将热点相关信息在搜索结果中的排序提前。

目前的搜索引擎为了在搜索结果中快速展现热点信息,一般使用的方法是:加快创建索引的频率,增加内存索引,以保证搜索引擎能够将最新的热点信息收录进去。其搜索结果的展现方式一般为按时间排序或按相关性排序,有些搜索引擎针对热点信息,加强了时间信息在相关性排序中的权重,同时对热词增加权重,以提前热点信息在搜索结果中的排序。

但是,上述现有技术存在以下缺陷:

按时间排序会降低相关性的力度,只能把最新的文档(图片等)提前,不能将其中的热点更加突出;而按照相关性排序,又弱化了实效性。所以不论按时间排序还是按相关性排序的搜索结果都不能准确地反映当前的热点信息;并且,当热词具备歧义的时候,无论是按时间排序还是按相关性排序,还是进一步增加热词在排序中的权重,都不能准确地将热点信息与其他信息剥离开。例如在某一段时间内名称为“苹果”的一部电影受关注的程度非常高,那么“苹果”这个词在这一段时间内就是一个热词。但是“苹果”不仅仅是一部电影名,其本义是一种水果,而且还有其它含义,例如有一家电子消费品公司的名称也叫“苹果”。那么“苹果”这个热词就会出现多种歧义,导致最终的搜索结果中不是用户所要查找的那部热门的电影信息,或者即使搜索出该电影信息但是排序太靠后,从而影响热点信息的搜索精度。

总之,现有技术对热点信息的搜索准确度较低。

发明内容

有鉴于此,本发明所要解决的技术问题在于提供一种网络信息搜索方法,以提高对热点信息的搜索准确度。

本发明所要解决的另一技术问题在于提供一种网络信息搜索系统,以提高对热点信息的搜索准确度。

为了实现上述发明目的,本发明的主要技术方案为:

一种网络信息搜索方法,包括:

A、确定热词及其相关词;

B、从网络上抓取网页,根据所述热词及其相关词的在网页信息中的出现情况评价对应网页的热度;

建立索引,在建立索引的过程中根据网页热度对相应网页信息的排序权重进行相应的加权处理,并在所建立的索引中进行热词及其相关词的与查询,缓存所述与查询的查询结果;

C、根据输入的检索词从所述索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果;

输入的检索词包括步骤A所确定的热词或其相关词时,从所缓存的查询结果中检索出与该检索词匹配的查询结果,并将该检索结果拼装在所述针对索引的搜索结果之前输出;

其中,输入的检索词包括两个或两个以上热词和/或热词相关词时,从所缓存的查询结果中进行与查询操作,且在与查询的权重排序中,有热词权重提前时,单独使用该热词权重作为对应网页的整体权重进行排序。

优选的,步骤A中,进一步设置更新周期,在每个更新周期内更新确定本周期内的热词及其相关词。

优选的,步骤B中所述根据所述热词及其相关词的在网页信息中的出现情况评价对应网页热度的具体方法为:根据所述热词的热度高低,对包含该热词的网页信息评价出对应的热度值;将同时包含热词及其相关词的网页信息进一步增加热度值。

优选的,步骤B中进一步包括:分析所述热词在对应网页中的出现位置,根据该出现位置的热点级别对当前网页信息热度值进行对应的评价处理。

优选的,在输出最终的搜索结果之前,进一步包括:将所述针对索引的搜索结果中与所述检索结果相同的信息过滤掉。

一种网络信息搜索系统,该系统包括:

热词记录模块,用于记录热词及其相关词;

索引建立模块,用于从网络上抓取网页信息并建立索引;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810088029.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top