[发明专利]一种WEB聚焦搜索系统的搜索方法在审
申请号: | 201310159265.1 | 申请日: | 2013-05-03 |
公开(公告)号: | CN103226609A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | 陈志德;林抒旻;许力 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350007 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 聚焦 搜索 系统 方法 | ||
1.一种WEB聚焦搜索系统的搜索方法,其特征在于:其包括以下步骤:
设定爬虫程序包括网页搜集线程和网页处理线程;
用户选定主题关键词,爬虫程序启动网页搜集线程搜索电子商务网站上与主题关键词一致的网络地址链接;
建立哈希表,对当前网页搜集线程搜索到的网页的网络地址链接与哈希表内的网络地址链接进行比对,如果搜索发现哈希表中不存在该网络地址链接,则将该网络地址链接存入哈希表,否则丢弃该网络地址链接;
利用ArrayList结构建立网络地址临时保存的链接缓冲池,网页搜集线程将存入哈希表的该网络地址链接同时存入待爬取的链接缓冲池中;
所述的网页搜集线程继续搜索电子商务网站上下一个与主题关键词一致的网络地址链接,直至所述的网页搜集线程搜索完电子商务网站上与关键主题词一致的所有网络地址链接,并存入链接缓冲池中待爬取;
爬虫程序启动网页处理线程,所述的网页处理线程通过DOM将所有链接缓冲池中待爬取的网络地址链接的页面映射成一个由层次节点组成的文件,所述的层次节点包括文本节点以及图片链接节点;所述的网页处理线程利用Xpath表达式将图片链接结点的位置表示出来,然后通过文档解析器提取该页面中图片链接以及与主题关键字一致的文本节点的文字信息,所述的网页处理线程爬取一条网络地址链接的页面后,链接缓冲池中对应的网络地址链接被删除;
建立数据库,将网页处理线程爬取的所有页面中的图片链接以及与主题关键字一致的文字信息存储到数据库中,并对每一条的网络地址链接下的图片链接以及文本信息进行分类存储;
用户通过数据库查看与主题关键词一致的搜索结果。
2.根据权利要求1所述的一种WEB聚焦搜索系统的搜索方法,其特征在于:所述的文字信息包括商品价格、商品属性、商品来源的网络地址链接、商品销量以及商品的销售信用度,当所述的网页处理线程爬取一个以上的文字信息为空时,则放弃该网络地址链接的爬取。
3.根据权利要求1所述的一种WEB聚焦搜索系统的搜索方法,其特征在于:当所述的网页搜集线程为一个以上并且同时搜索同一个网络地址链接时,所述的爬虫程序采用synchronized关键字加锁,只允许一个网页搜集线程将该网络地址链接存入哈希表和链接缓冲池。
4.根据权利要求1所述的一种WEB聚焦搜索系统的搜索方法,其特征在于:所述的数据库中包括第一表格、第二表格和第三表格;存入爬取信息到数据库的时候,其包括以下步骤:1)将搜索商品名称的商品存入第一表格中,并赋予该商品为第一表格编号;2)将搜索到具有公共属性的商品存入第二表格中,并赋予第一表格编号和第二表格编号;3)将搜索到具有不同商品名称以及不同数量的商品存入到第三表格中,并赋予第二编号;在将爬取信息从数据库中取出的时候,其包括以下步骤:1)读取第一表格编号的商品;2)通过第二表格中查询到拥有具有第一表格编号的商品;3)选取第二表格中的商品的时候,使用这件商品的第二表格编号到第三表格中取出拥有同样具有第二表格编号的商品。
5.根据权利要求1所述的一种WEB聚焦搜索系统的搜索方法,其特征在于:所述的爬虫程序采用JAVA语言编程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310159265.1/1.html,转载请声明来源钻瓜专利网。