[发明专利]网页检索方法和装置有效
申请号: | 201210026812.4 | 申请日: | 2012-02-07 |
公开(公告)号: | CN103246664A | 公开(公告)日: | 2013-08-14 |
发明(设计)人: | 曾剑元;孔维青;杭海裕 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;江舟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 检索 方法 装置 | ||
技术领域
本申请涉及互联网领域,具体而言,涉及一种网页检索方法和装置。
背景技术
在互联网搜索技术领域中,以电子商务网站内的搜索为例,目前,在电子商务搜索引擎中对各个产品的搜索主要是针对诸如价格、生产日期等每个商品都具有的属性,然而,对于诸如“内径”、“外径”这样的概念,可能只在“轴承”这样的特殊商品里才具有意义,因此很难作为一个通用属性进行查询。在搜索引擎的系统中存储有多个网页,每个网页是对一个标准产品的全方位的描述,其记录有比如价格、标题、生产日期等通用属性以及一些用户自定义属性,也称为非通用属性,例如,价格、产地等所有商品都具有的属性叫通用属性,而如内径、外径、厚度等某些特定商品才具有的属性叫非通用属性。
现有技术中基于属性的产品检索方案主要是采用对各个网页中都记载的属性进行检索,其中,现有技术中采用XML语言来存储格式化的属性信息,所谓格式化指的是:每个网页记载的属性的个数是相同的。举例而言,假设已存储在系统中的网页A、B、C用于描述产品A、B、C,其中,产品A对应有两个属性:价格和生产日期;产品B对应有两个属性:价格和生产日期;产品C对应有三个属性:价格、生产日期以及内径。由于产品C对应有产品A和B不具有的非通用属性“内径”,因此为了实现格式化地存储,需要在网页A和B中增加字段来记录属性“内径”,其中,可以利用“0”值来表示该网页描述的产品不具有该属性,例如,采用以下格式来描述产品A、B、C:
网页A:“价格”,100;“日期”,2001-1-1;“内径”,0;
网页B:“价格”,200;“日期”,2002-1-1;“内径”,0;
网页C:“价格”,300;“日期”,2003-1-1;“内径”,50。
通过上述格式化地存储方案,使得在需要基于某一个属性进行产品检索时,可以只将该属性作为查询入口进行查询。例如,当需要基于内径这个非通用属性进行产品检索时,可以对属性“内径”建立索引区间,例如,“1-50”、“50-100”等。然后,根据上述的索引区间对每个网页记录的字段“内径”进行查询。
针对上述存储方案,当新存储在系统中的网页具有一个其他已存储的网页不具有的属性时,需要为对每个现有的网页增加对应的字段来记录该属性,以便实现格式化地存储,使得可以基于该新增的属性进行检索。例如,系统中新存储的产品D对应有属性:“价格”、“日期”、“内径”和“外径”,则需要在网页A、B和C中增加字段来记录“外径”属性,其中,可以利用“0”值来表示该网页描述的产品不具有该属性,具体地记录可以描述如下:
网页A:“价格”,100;“日期”,2001-1-1;“内径”,0;“外径”,0;
网页B:“价格”,200;“日期”,2002-1-1;“内径”,0;“外径”,0;
网页C:“价格”,300;“日期”,2003-1-1;“内径”,50;“外径”,0;
网页D:“价格”,400;“日期”,2004-1-1;“内径”,60;“外径”,100。
由于新存储在系统中的网页具有一个其他已存储的网页不具有的属性时,需要对现有网页均增加对应的字段来记录该属性,这样在系统中存储了大量无用的用于表示属性的字段,从而造成了数据的大量冗余以及系统资源的浪费。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网页检索方法和装置,以至少解决现有技术中建立对非通用属性的检索时造成的数据冗余以及系统资源的浪费的技术问题。
根据本申请的一个方面,提供了一种网页检索方法,包括:根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间;根据待检索网页的属性标识和查询区间得到待检索的属性值范围;判断待检索的属性值范围与在接收查询语句的系统中预先建立的多个索引区间是否存在交集;在存在交集的索引区间下的所有网页中获取属性标识为待检索网页的属性标识、且属性值与查询区间存在交集的网页;将获取到的网页作为检索结果返回。
优选地,在根据输入的查询语句获取待检索网页的属性标识和该属性标识下的查询区间之前,网页检索方法还包括:对于系统中待扫描的网页执行以下步骤:获取待扫描的网页的属性标识和属性值;根据待扫描的网页的属性标识和属性值得到待扫描的网页的属性值范围;判断待扫描的网页的属性值范围与预先建立的多个索引区间是否存在交集;将存在交集的索引区间与待扫描的网页之间建立映射关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210026812.4/2.html,转载请声明来源钻瓜专利网。