[发明专利]一种WEB聚焦搜索系统的搜索方法在审
申请号: | 201310159265.1 | 申请日: | 2013-05-03 |
公开(公告)号: | CN103226609A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | 陈志德;林抒旻;许力 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350007 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种WEB聚焦搜索系统的搜索方法,设定爬虫程序分别为网页搜集线程和网页处理线程,用户根据关键词通过网页搜集线程检索电子商务网站的网络地址链接域名,然后通过建立哈希表去除重复链接,存入链接缓冲池等待网页处理线程解析及爬取信息,最后将爬取的信息存入到数据库中的数据模型,用户通过数据库查看搜索结果;采用以上方法,实现了爬虫程序多线程分别处理,使其便于管理和加快运行速度,利用哈希表去重,相对于现有技术中的搜索引擎可以排除掉大量的无关链接,使人们获取有价值的信息;通过synchronized关键字加锁,保证取出链接的唯一性,防止多次爬取导致的资源浪费以及数据重复,使用户有效地提取和利用这些信息与资源。 | ||
搜索关键词: | 一种 web 聚焦 搜索 系统 方法 | ||
【主权项】:
一种WEB聚焦搜索系统的搜索方法,其特征在于:其包括以下步骤:设定爬虫程序包括网页搜集线程和网页处理线程;设定网页搜集线程只搜索电子商务网站的网络地址链接域名;用户选定主题关键词,爬虫程序启动网页搜集线程搜索电子商务网站上与主题关键词一致的网络地址链接;建立哈希表,对当前网页搜集线程搜索到的网页的网络地址链接与哈希表内的网络地址链接进行比对,如果搜索发现哈希表中不存在该网络地址链接,则将该网络地址链接存入哈希表,否则丢弃该网络地址链接;利用ArrayList结构建立网络地址临时保存的链接缓冲池,网页搜集线程将存入哈希表的该网络地址链接同时存入待爬取的链接缓冲池中;所述的网页搜集线程继续搜索电子商务网站上下一个与主题关键词一致的网络地址链接,直至所述的网页搜集线程搜索完电子商务网站上与关键主题词一致的所有网络地址链接,并存入链接缓冲池中待爬取;爬虫程序启动网页处理线程,所述的网页处理线程通过DOM将所有链接缓冲池中待爬取的网络地址链接的页面映射成一个由层次节点组成的文件,所述的层次节点包括文本节点以及图片链接节点;所述的网页处理线程利用Xpath表达式将图片链接结点的位置表示出来,然后通过文档解析器提取该页面中图片链接以及与主题关键字一致的文本节点的文字信息,所述的网页处理线程爬取一条网络地址链接的页面后,链接缓冲池中对应的网络地址链接被删除;建立数据库,将网页处理线程爬取的所有页面中的图片链接以及与主题关键字一致的文字信息存储到数据库中,并对每一条的网络地址链接下的图片链接以及文本信息进行分类存储;用户通过数据库查看与主题关键词一致的搜索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310159265.1/,转载请声明来源钻瓜专利网。