[发明专利]一种搜索方法、装置及系统无效
申请号: | 201210039526.1 | 申请日: | 2012-02-21 |
公开(公告)号: | CN103257975A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 高得恩;高一波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 装置 系统 | ||
2.如权利要求1所述的方法,其特征在于,所述在预设类型的网站中获取特定信息类别的网页数据的步骤具体包括:
以预设类型的网站的根统一资源定位符URL为起点,爬取并过滤出目标页面,所述目标页面为包含特定信息类别的网页数据的网页;
在所述目标页面中检测并抽取特定信息类别的网页数据。
3.如权利要求2所述的方法,其特征在于,所述在目标页面中检测并抽取特定信息类别的网页数据的步骤具体包括:
分别获取所述目标页面的URL和文档对象化模型树DOM-tree;
对于URL和DOM-tree均相互匹配的目标页面,在第一目标页面中检测并抽取特定信息类别的网页数据,并保存所述网页数据在该DOM-tree中的位置,同时根据保存的位置抽取与该DOM-tree相互匹配的其他目标页面的网页数据,重复本步骤直至抽取完所有目标页面的网页数据。
4.如权利要求3所述的方法,其特征在于,在所述分别获取所述目标页面的URL和DOM-tree的步骤之后,所述方法还包括:
计算两个目标页面之间的URL相似度及DOM-tree的编辑距离值,若计算结果在一定阈值内,则所述两个目标页面匹配。
5.一种搜索引擎,其特征在于,所述引擎采取权利要求1-4任一项所述的方法进行搜索。
6.一种搜索装置,其特征在于,所述装置包括:
搜索数据库,用于在预设类型的网站中获取特定信息类别的网页数据,并将所述网页数据转化为结构化数据后保存;
展示模块,用于根据用户提供的搜索条件,展示与所述搜索条件匹配的结构化数据。
7.如权利要求6所述的装置,其特征在于,所述搜索数据库包括:
目标页面过滤模块,用于以预设类型的网站的根统一资源定位符URL为起点,爬取并过滤出目标页面,所述目标页面为包含特定信息类别的网页数据的网页;
数据抽取模块,用于在所述目标页面中检测并抽取特定信息类别的网页数据。
8.如权利要求7所述的方法,其特征在于,所述数据抽取模块包括:
URL及DOM-tree获取子模块,用于分别获取所述目标页面的URL和文档对象化模型树DOM-tree;
抽取子模块,用于对于URL和DOM-tree均相互匹配的目标页面,在第一目标页面中检测并抽取特定信息类别的网页数据,并保存所述网页数据在该DOM-tree中的位置,同时根据保存的位置抽取与该DOM-tree相互匹配的其他目标页面的网页数据,重复本步骤直至抽取完所有目标页面的网页数据。
9.如权利要求8所述的方法,其特征在于,所述数据抽取模块还包括:
匹配子模块,用于计算两个目标页面之间的URL相似度及DOM-tree的编辑距离值,若计算结果在一定阈值内,则所述两个目标页面匹配。
10.一种搜索系统,其特征在于,所述系统包括如权利要求6-9任一项所述的搜索装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210039526.1/1.html,转载请声明来源钻瓜专利网。