[发明专利]一种深层网移动搜索方法、服务器及系统无效
申请号: | 200910004311.4 | 申请日: | 2009-01-24 |
公开(公告)号: | CN101788981A | 公开(公告)日: | 2010-07-28 |
发明(设计)人: | 王玮;董晓艺;顾翀;胡汉强;张飞;孟卫一 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻 |
地址: | 518129 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深层 移动 搜索 方法 服务器 系统 | ||
技术领域
本发明关于移动搜索技术,特别是关于深层网(Deep Web)移动搜索技术,具体的讲是一种深层网移动搜索方法、服务器及系统。
背景技术
目前,Deep Web得到了越来越多的研究和关注,Deep Web(深层网,又称hidden web,暗网;invisible web,不可见网)指的是网络上隐藏在HTML表单之后的内容。与Deep Web相对应的是表面网(Surface Web),Surface Web通常指网页上的静态内容。现有搜索引擎的普通网页爬虫只能爬取静态的Surface Web内容,对Deep Web的内容需要用专用的爬虫或者进行专门的处理。
在实现本发明的过程中发明人发现,Deep Web中大约包含9000亿个网页,而目前最大的搜索引擎能够爬取的包括Deep Web和Surface Web在内的所有内容大约为200亿个页面,可见大量的高质量的Deep Web内容得不到有效的搜索和访问。
Deep Web访问方式包括:爬取内容的访问方式,该访问方式通过专用的Deep Web爬取工具爬取Deep Web的内容,将获得的内容存储到搜索服务器,并对内容数据进行分析和建立索引等处理。这种访问方式的缺陷是:1)由于Deep Web内容数据不是通过实时访问表单得到的,而是定期从表单中抓取内容数据,再将抓取的内容数据存储到搜索服务器中,所以内容数据的时新性(freshness)不高;2)由于需要大规模的存储空间来存储爬取过来的内容数据,并需要庞大的索引库来存储和维护这些内容数据的索引,所以需要大规模的存储空间。
Deep Web访问方式还包括:整合搜索访问方式,该访问方式通过整合几个专业领域数据库进行搜索,提供统一的搜索门户给用户。这种访问方式的缺陷是:在检索时需要指定搜索的目标数据库,仅能集成少量的指定数据库。
发明内容
本发明实施例提供了一种深层网移动搜索方法、服务器及系统,用以集成Deep Web成员搜索引擎,实现对Deep web成员搜索引擎的代表,Deep Web搜索服务器基于Deep Web成员搜索引擎提供的代表值(representative,可以为对Deep Web成员搜索引擎的内容或地址的统计数据),选择合适的Deep Web成员引擎进行Deep Web搜索。
根据本发明的一方面,提供一种深层网移动搜索方法,所述的方法包括以下步骤:获取深层网Deep Web成员搜索引擎的成员搜索引擎代表值;接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;根据所述搜索请求信息与成员搜索引擎代表值计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给所述的客户端。
根据本发明的另一方面,提供一种深层网移动搜索服务器,所述的服务器包括:代表值获取单元,用于获取Deep Web成员搜索引擎的成员搜索引擎代表值;搜索请求接收单元,用于接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;成员引擎选择单元,用于根据所述搜索请求信息与成员搜索引擎代表值计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;搜索结果输出单元,用于将搜索到的内容数据发送给所述的客户端。
根据本发明的另一方面,提供一种深层网移动搜索系统,所述的系统包括:成员搜索引擎和所述的搜索服务器;所述的搜索服务器,用于获取所述Deep Web成员搜索引擎的成员搜索引擎代表值和接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;根据所述搜索请求信息与成员搜索引擎代表值计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给所述的客户端。
根据本发明的另一方面,提供一种深层网移动搜索方法,所述的方法包括以下步骤:获取Deep Web成员搜索引擎的成员搜索引擎代表值,所述的成员搜索引擎代表值为成员搜索引擎内容属性数据;接收客户端发送的搜索请求,并从所述的搜索请求中获取搜索请求信息;根据所述搜索请求信息与成员搜索引擎内容属性数据计算所述搜索请求与成员搜索引擎的匹配度,根据所述匹配度从所述成员搜索引擎的集合中选择成员搜索引擎进行内容数据搜索;将搜索到的内容数据发送给所述的客户端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910004311.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种硬件安全单元的数字水印产生方法及系统
- 下一篇:组态只读存储器的测试方法