[发明专利]一种搜索信息的方法、装置和终端有效
申请号: | 201210102446.6 | 申请日: | 2012-04-09 |
公开(公告)号: | CN103365924A | 公开(公告)日: | 2013-10-23 |
发明(设计)人: | 杨建武;吴新丽;梁汝峰;于晓明;张丹;汪洋 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 信息 方法 装置 终端 | ||
技术领域
本发明涉及通信领域技术,尤其涉及一种搜索信息的方法、装置和终端。
背景技术
随着互联网络迅猛发展,网页数量达到600多亿,而且仍然以年增长率78.6%的速度增长。博客、微博等新型的自媒体网络应用更是让互联网的内容呈几何式增长。面对这样的信息过载,不得不依赖搜索引擎这种过滤方式更高效地找到需要的内容和资源。
然而,目前在互联网的600多亿个网页中,最多只有5%的网页能够出现在用户搜索结果中。而且,用户可能只有精力关注前100个搜索结果。因此,如何提供给用户最精准的、贴合其需求的信息至关重要。当前,广泛使用的谷歌、百度等搜索引擎,只是通过关键字词进行搜索,并显示给用户一个可能有价值的网页列表,而不能直接准确地提供用户所需的信息。用户需要再手工从大量杂乱无章的内容中筛选归纳出自己所需的信息和知识。这样,就造成了用户仍旧耗费了较多的时间与精力,搜索效率不高。
因此,现有技术中搜索信息的技术存在一定的技术缺陷,需要进行改进。
发明内容
本发明实施例提供了一种搜索信息的方法、装置和终端,可以较为准确的为用户提供贴切的搜索结果,提高搜索信息的效率。
本发明实施例提供了一种搜索信息的方法,包括:
从网页采集源采集网页信息;
根据采集的网页信息,建立信息资料库;
根据客户端发送的搜索请求,在所述信息资料库中进行搜索;
将搜索结果推送到所述客户端进行显示。
相应的,本发明实施例提供了一种搜索信息的装置,包括:
采集模块,用于从网页采集源采集网页信息;
建立模块,用于根据采集的网页信息,建立信息资料库;
搜索模块,用于根据客户端发送的搜索请求,在所述信息资料库中进行搜索;
推送模块,用于将搜索结果推送到所述客户端进行显示。
相应的,本发明实施例提供了一种终端,包括:上述搜索信息的装置。
本发明实施例提供了一种搜索信息的方法、装置和终端,用于从网页采集源采集网页信息;根据采集的网页信息,建立信息资料库;根据客户端发送的搜索请求,在所述信息资料库中进行搜索;将搜索结果推送到所述客户端进行显示。使用本发明实施例提供的搜索信息的方法、装置和终端,通过预先采集用户关注的网页信息,并使用该众多网页信息建立信息资料库,当接收到客户端发送的搜索请求时,在该信息资料库中进行搜索,可以提高搜索效率,并且提高搜索精度。
附图说明
图1为本发明实施例中搜索信息的方法流程示意图;
图2为本发明另一实施例中搜索信息的方法流程示意图;
图3为本发明另一实施例中根据采集网页信息建立信息资料库的流程示意图;
图4为本发明实施例中搜索信息的装置示意图。
具体实施方式
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
为了解决现有技术存在的问题,本发明实施例提供了一种搜索信息的方法,如图1所示,该方法包括:
步骤101、从网页采集源采集网页信息;具体的,在网络侧服务器端,当网页采集源为选定的网站时,根据预先配置的采集任务采用网络爬虫采集网页信息;当网页采集源为通过搜索引擎搜索的网页时,采用预先配置的搜索规则搜索网页,并采集网页信息。其中,采集任务包括:欲采集的网站名称、采集时的起始链接地址、采集的深度和刷新策略;网页信息包括:元数据和正文。
步骤102、根据采集的网页信息,建立信息资料库;具体的,网络侧服务器将采集的网页信息处理为采集结果文件并缓存;对采集结果文件进行自然语言处理,提取关键词和摘要;存储网页信息、以及关键词和摘要,建立信息资料库。较佳的,提取关键词和摘要之后,还包括:基于语料库信息,采用文本分类模型对采集结果文件进行自动分类处理。较佳的,提取关键词和摘要之后,还包括:基于垃圾词汇表,对采集结果文件进行信息过滤。当然,也可以对自动分类处理后的采集结果文件进行信息过滤;或者对信息过滤后的采集结果文件进行自动分类处理;也可以仅进行某项处理。其中,将采集的网页信息中的元数据、及提取的关键词和摘要信息存储到网页库;将采集的网页信息中的正文以文件的形式存储到文件库中;将元数据、提取的关键词和摘要信息、以及正文作为搜索时使用的信息资料库资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正电子有限公司,未经北京大学;北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210102446.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置