[发明专利]一种WEB聚焦搜索系统的搜索方法在审

专利信息
申请号: 201310159265.1 申请日: 2013-05-03
公开(公告)号: CN103226609A 公开(公告)日: 2013-07-31
发明(设计)人: 陈志德;林抒旻;许力 申请(专利权)人: 福建师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 福州君诚知识产权代理有限公司 35211 代理人: 戴雨君
地址: 350007 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 web 聚焦 搜索 系统 方法
【说明书】:

技术领域

发明涉及一种计算机网络搜索引擎的技术领域,特别是涉及一种WEB聚焦搜索系统的搜索方法。

背景技术

在如今的网络世界,随着各种B2C、C2C、B2B的网站的成长和各种测评网站的建设。足不出户的网络购物已然成为大家生活中的一部分。现代搜索引擎,主要是指通用搜索引擎,如Google,百度、Yahoo等,能够整合大量的信息,在用户通过搜索引擎搜索的时候以极快的速度查询数据库,并将结果返回给用户。用户能够触及的信息量成倍的增长,相应的网络上的信息量也爆炸似的增加。现代搜索引擎具有很高的通用性,可是它也遇到了它的瓶颈。众所周知,通用搜索引擎虽然具有很高的通用性,可是通用性越高,搜索到的相应的信息也就越繁杂与冗余,需要花费用户大量的时候用于筛选有用的信息,带来大量的时间浪费与人力浪费。当为了搜索有价值的信息付出的代价越来越高,用户渴望搜索引擎能够更准确地满足搜索条件,不过因为搜索引擎自身的不足,使得用户在搜索一些特定信息的时候不乐于使用它们,因为它们搜索出来的结果泛而且杂,可以说并没有帮用户减少工作量。

聚焦搜索便是其中一种传统搜索引擎的新竞争者。聚焦搜索通过使用具有定向抓取相关网页资源的聚焦爬虫,根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息,以提高搜索质量。与通用搜索引擎不同,聚焦爬虫并不追求大的覆盖,而是只抓取与主题内容有关的网页,为用户提供特定的搜索结果。使用聚焦搜索,可以有效地提取和利用这些信息与资源。所以聚焦搜索以其特有的能力补充着通用搜索引擎所无法完成的用户需求,聚焦搜索引擎是顺应时代的产物。

最常见的聚焦爬虫的策略便是使用深度优先搜索算法和广度优先搜索算法;这两个搜索算法能够很全面的覆盖所有的页面,可是相应的工作量也是巨大的,而且链接之间常常存在着环路,容易多次搜索同一个页面导致做了很多无用功,并且当爬取商城这样的具有巨大规模的数据库的时候很难有所收获,抓取的信息准确率也不高,难以对用户的判断有价值。Xpath指的是XML路径语言(XML Path Language),它是一种用来确定XML文档某个位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。Xpath可以唯一的确定一个位置,也可以选择具有某一类特征的位置。ArrayList就是动态数组,用MSDN中的说法,就是Array的复杂版本,它提供了动态的增加和减少元素,实现了ICollection和IList接口,灵活的设置数组的大小等好处;每个 ArrayList 实例都有一个容量。该容量是指用来存储列表元素的数组的大小。它总是至少等于列表的大小。随着向 ArrayList 中不断添加元素,其容量也自动增长。

发明内容

本发明的目的在于提供一种使WEB聚焦搜索系统的搜索速度更快、爬取页面信息更准确的搜索方法;

本发明采用以下方法,其包括以下步骤:

1) 设定爬虫程序包括网页搜集线程和网页处理线程;

2) 设定网页搜集线程只搜索电子商务网站的网络地址链接域名

3) 用户选定主题关键词,爬虫程序启动网页搜集线程搜索电子商务网站上与主题关键词一致的网络地址链接;

4) 建立哈希表,对当前网页搜集线程搜索到的网页的网络地址链接与哈希表内的网络地址链接进行比对,如果搜索发现哈希表中不存在该网络地址链接,则将该网络地址链接存入哈希表,否则丢弃该网络地址链接;

5) 利用ArrayList结构建立网络地址临时保存的链接缓冲池,网页搜集线程将存入哈希表的该网络地址链接同时存入待爬取的链接缓冲池中;

6) 所述的网页搜集线程继续搜索电子商务网站上下一个与主题关键词一致的网络地址链接,直至所述的网页搜集线程搜索完电子商务网站上与关键主题词一致的所有网络地址链接,并存入链接缓冲池中待爬取;

7) 爬虫程序启动网页处理线程,所述的网页处理线程通过DOM(文件对象模型)将所有链接缓冲池中待爬取的网络地址链接的页面映射成一个由层次节点组成的文件,所述的层次节点包括文本节点以及图片链接节点;所述的网页处理线程利用Xpath表达式将图片链接结点的位置表示出来,然后通过文档解析器提取该页面中图片链接以及与主题关键字一致的文本节点的文字信息,所述的网页处理线程爬取一条网络地址链接的页面后,链接缓冲池中对应的网络地址链接被删除;

8) 建立数据库,将网页处理线程爬取的所有页面中的图片链接以及与主题关键字一致的文字信息存储到数据库中,并对每一条的网络地址链接下的图片链接以及文本信息进行分类存储;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310159265.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top