[发明专利]搜索对比关联购物信息的垂直搜索引擎及方法有效
申请号: | 201210498700.9 | 申请日: | 2012-11-29 |
公开(公告)号: | CN102968495A | 公开(公告)日: | 2013-03-13 |
发明(设计)人: | 许峰;任向林;陈亚明;杨少松;张雪洁 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 对比 关联 购物 信息 垂直 搜索引擎 方法 | ||
技术领域
本发明涉及到网络应用中的信息检索技术——垂直搜索引擎,涉及到的技术是在实现电子购物过程中,实现对某款电子产品的关联信息检索,具体是一种搜索对比关联购物信息的垂直搜索引擎和一种搜索对比关联购物信息的垂直搜索方法。
背景技术
在信息时代,搜索引擎已经成为我们生活中必不可少的一部分,人们通过它在海量的信息海洋中实现快速定位信息、快速获取信息、快速解决问题的目的。搜索引擎包括通用搜索引擎和垂直搜索引擎。
通用搜索引擎的技术是利用机器人技术通过网页抓取程序(spider)顺着网页中的超链接,连续的抓取网页,然后根据索引表倒排表(inverted list),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上,最后供用户使用。
该技术能能够快速返回大量的信息给用户,但当我们在海量的网络数据查询我们特定的信息时,我们会发现这些搜索引擎返回给我们的大量信息并不是我们所需要的,而我们真正所需要的信息并非总是在第一时间以及醒目的位置出现,可见,在信息搜索方面上,通用搜索引擎并不能满足我们的电子购物的需求。
垂直搜索引擎是针对某一个领域或者一个行业的信息检索,它的特点是查找准确度高,使用户能够快速定位、准确获取自己所要的信息。尤其是在电子购物平台上,如淘宝网、京东商城网,这些电子购物平台含有大量的图片、商品种类、评价等各种信息,因此一个有效的垂直搜索引擎可以有助于用户快捷购物。它所采用的技术仍是基于通用搜索引擎、在固定的一个网站内进行检索,虽然能够提供在该网站的众多商家信息,但其无法检索其他购物平台的商品信息,也就是说无法实现跨网站搜索。例如,顾客在淘宝网搜索一款手机,那么返回的信息是在淘宝网上商店的信息,无法获取京东商城上的同一款手机的商品信息,即无法提供给顾客全面而又能对比的信息,无法实现“货比三家”式的对比式购物。
在信息检索领域和在商业应用过程中搜索引擎存在很多问题和局限性,出现的问题既有技术层面上的,也有人为的保护主义,总的归纳起来如下:
(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的信息,无法应用于电子购物平台这种专业性强的搜索服务;
(2)垂直搜索引擎虽能准确返回用户定义的信息,但因其在电子商务应用上的保护主义,使得每个网站只提供自己平台上的商品信息,故意屏蔽其他电子网站的商品信息,防止顾客比较、无法实现对比关联信息的检索。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种搜索对比关联购物信息的垂直搜索引擎及方法。
技术方案:一种搜索对比关联购物信息的垂直搜索引擎,包括爬取不同购物平台商品信息的网页爬取模块,把爬取出的原始网页解析成文本文件的解析模块,把解析后的海量商品的对比关联属性信息存到数据库中并建立索引便于搜索的索引存储模块,以及提供给用户用来检索商品关联信息的检索模块;
用户通过检索模块中的浏览器输入要查询的商品名称;所述检索模块将所述商品名称发送给索引存储模块;所述索引存储模块将包含所述商品的关联查询信息返回给检索模块中的浏览器,供用户浏览查询使用。
所述网页爬取模块利用Heritrix爬虫技术,获得包含商品属性信息的网页,作为垂直搜索引擎检索的原始数据,尽可能的爬取所有的电子购物平台上的所有商品信息。爬取过程中是以电子购物网站为单位,因此在实现技术上只要实现一个网站,其他网站按照同等技术依次爬取,最后在索引存储模块进行整合。
由于网页爬取模块爬取的原始HTML网页包含了大量的无用的格式信息和标记信息,在建立索引之前必须对网页进行解析,把定向抓取的HTML页面解析成文本文件。所述网页解析模块采用HTMLParser模式解析HTML网页中的Node节点,同时提供访问节点的方法Filter模式。
所述索引存储模块,将网页解析模块解析的文本文件中的商品关联属性信息作为数据库的数据源,提取出文本文件中的属性信息词,规范之后存储在数据库中,建立Lucene索引,使数据库与索引整合。本发明中还进一步设计一种降低索引维护开销、降低磁盘读写次数、减少内存消耗索引优化方法:
首先对要建立索引的逻辑文件进行分类分级,设定不需要建立索引、分词后建立索引、不分词索引共三种索引方式,并把索引建立在选择性高的逻辑文档上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210498700.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双盘磨浆机正反旋转输出机构
- 下一篇:一种中浓碎浆机浆槽上罩