[发明专利]用于深层网数据集成的数据源选择方法有效

专利信息
申请号: 201010250124.7 申请日: 2010-08-10
公开(公告)号: CN101916272A 公开(公告)日: 2010-12-15
发明(设计)人: 方巍;毕硕本;文学志 申请(专利权)人: 南京信息工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 许方
地址: 210044 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 深层 数据 集成 数据源 选择 方法
【说明书】:

技术领域

发明涉及一种基于网络的数据源选择方法,具体涉及一种由网络查询接口连接的深层网的数据源选择方法,用于深层网数据源的集成服务。

背景技术

随着网络数据库的广泛应用,网络正在加速的“深化”。互联网上有大量页面是由后台数据库动态产生,这部分信息不能直接通过静态链接获取,只能通过填写表单提交查询来获取,由于传统的网络爬虫(Crawler)不具有填写表单的能力,爬不出这些页面。因此,现有的搜索引擎搜索不出这部分页面信息,从而导致这部分信息对用户是隐藏、不可见的,被称为深层网(Deep Web,又称为Invisible Web,Hidden Web)。Deep Web是一个与Surface Web相对应的概念,最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎难以发现其信息内容的Web页面。Deep Web信息一般存储在数据库中,需要通过查询接口提交查询进行访问,和静态页面相比通常信息量更大,主题更专一,信息质量更好,信息结构化更好,增长速度更快。研究表明,Deep Web信息是Surface Web信息的500倍,有近450,000个Deep Web站点。实现大规模DeepWeb数据集成是方便用户使用Deep Web信息的一个有效途径。

大规模Deep Web集成系统主要包含:1)数据源发现(Deep Web Discovery);2)查询接口抽取(Query Interface Extraction);3)数据源选择(Source selection);4)查询转换(Query Transfer);5)结果合成(Result Merging)这五个关键部分。

Deep Web数据源包括多种主题的数据资源,而且在某个主题上Deep Web数据源也有许多,这些数据源属于同一主题,但数据质量上差别很大:有些是过时的、不准确或不一致的,而有些是更新及时、准确一致的。并且这些数据源包含的数据量大小不一,互相覆盖,有的覆盖大,有的甚至完全包含其它的数据源。以商业和教育这两个领域为例,根据Complete Planet的统计,存在上千个Web数据库,由于Complete Planet只是搜集了整个Deep Web数据源中大约7%的Web数据库,所以在现实中还要远远大于这个数字(Bergman M.K.The Deep Web:Surfacing Hidden Value.In Journal of Electronic Publishing,2002,7(1):8912-8914)。Kabra G等提出了一种选择那些和用户查询请求内容最为接近的(Top-k)k个Deep Web数据源进行查询的方法(Kabra G,Li CK,Chang KCC.Query routing:Finding Ways in the Maze of the Deep Web.In Proc.of the ICDE,2005,64-73)。上述方法只处理查询接口简单属性关系,而且是通过关键词进行查询表单,这些方法没有考虑到查询接口各属性间语义关系,而且进行相应数据源选择过程中数据源选择结果的准确率低,而且返回数据源结果不全等。随着Web数据库数量的不断增长,使得Deep Web数据源的选择成为一个亟待解决的关键问题。

发明内容

本发明的目的是针对现有技术的不足,提供一种高效、准确的深层网数据源选择方法,从而提高深层网数据源的选择效率和准确度。

数据源选择是指在给定Deep Web数据源查询接口集和某个用户查询的条件下,选择与用户查询相关度大于某一设定的阈值的查询接口集或者选择相关度值较大的前k个数据源的查询接口集的过程。数据源选择主要是为了选择覆盖程度高,重叠程度小的数据库,避免出现大量的冗余和无关信息;用户希望找到相应的高质量的查询结果,又希望能得到相同结果之间的对比情况。现有数据源选择方法大多是直接计算用户查询与查询接口的相关度来进行关键词匹配,由于以下三方面原因导致使用现有方法时,用户查询通常是不准确的,并且具有较高的冗余度,同时会发现一些不相关的数据源:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010250124.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top