[发明专利]用于深层网数据集成的数据源选择方法有效
申请号: | 201010250124.7 | 申请日: | 2010-08-10 |
公开(公告)号: | CN101916272A | 公开(公告)日: | 2010-12-15 |
发明(设计)人: | 方巍;毕硕本;文学志 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 深层 数据 集成 数据源 选择 方法 | ||
技术领域
本发明涉及一种基于网络的数据源选择方法,具体涉及一种由网络查询接口连接的深层网的数据源选择方法,用于深层网数据源的集成服务。
背景技术
随着网络数据库的广泛应用,网络正在加速的“深化”。互联网上有大量页面是由后台数据库动态产生,这部分信息不能直接通过静态链接获取,只能通过填写表单提交查询来获取,由于传统的网络爬虫(Crawler)不具有填写表单的能力,爬不出这些页面。因此,现有的搜索引擎搜索不出这部分页面信息,从而导致这部分信息对用户是隐藏、不可见的,被称为深层网(Deep Web,又称为Invisible Web,Hidden Web)。Deep Web是一个与Surface Web相对应的概念,最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎难以发现其信息内容的Web页面。Deep Web信息一般存储在数据库中,需要通过查询接口提交查询进行访问,和静态页面相比通常信息量更大,主题更专一,信息质量更好,信息结构化更好,增长速度更快。研究表明,Deep Web信息是Surface Web信息的500倍,有近450,000个Deep Web站点。实现大规模DeepWeb数据集成是方便用户使用Deep Web信息的一个有效途径。
大规模Deep Web集成系统主要包含:1)数据源发现(Deep Web Discovery);2)查询接口抽取(Query Interface Extraction);3)数据源选择(Source selection);4)查询转换(Query Transfer);5)结果合成(Result Merging)这五个关键部分。
Deep Web数据源包括多种主题的数据资源,而且在某个主题上Deep Web数据源也有许多,这些数据源属于同一主题,但数据质量上差别很大:有些是过时的、不准确或不一致的,而有些是更新及时、准确一致的。并且这些数据源包含的数据量大小不一,互相覆盖,有的覆盖大,有的甚至完全包含其它的数据源。以商业和教育这两个领域为例,根据Complete Planet的统计,存在上千个Web数据库,由于Complete Planet只是搜集了整个Deep Web数据源中大约7%的Web数据库,所以在现实中还要远远大于这个数字(Bergman M.K.The Deep Web:Surfacing Hidden Value.In Journal of Electronic Publishing,2002,7(1):8912-8914)。Kabra G等提出了一种选择那些和用户查询请求内容最为接近的(Top-k)k个Deep Web数据源进行查询的方法(Kabra G,Li CK,Chang KCC.Query routing:Finding Ways in the Maze of the Deep Web.In Proc.of the ICDE,2005,64-73)。上述方法只处理查询接口简单属性关系,而且是通过关键词进行查询表单,这些方法没有考虑到查询接口各属性间语义关系,而且进行相应数据源选择过程中数据源选择结果的准确率低,而且返回数据源结果不全等。随着Web数据库数量的不断增长,使得Deep Web数据源的选择成为一个亟待解决的关键问题。
发明内容
本发明的目的是针对现有技术的不足,提供一种高效、准确的深层网数据源选择方法,从而提高深层网数据源的选择效率和准确度。
数据源选择是指在给定Deep Web数据源查询接口集和某个用户查询的条件下,选择与用户查询相关度大于某一设定的阈值的查询接口集或者选择相关度值较大的前k个数据源的查询接口集的过程。数据源选择主要是为了选择覆盖程度高,重叠程度小的数据库,避免出现大量的冗余和无关信息;用户希望找到相应的高质量的查询结果,又希望能得到相同结果之间的对比情况。现有数据源选择方法大多是直接计算用户查询与查询接口的相关度来进行关键词匹配,由于以下三方面原因导致使用现有方法时,用户查询通常是不准确的,并且具有较高的冗余度,同时会发现一些不相关的数据源:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010250124.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置