[发明专利]Web服务资源库数据的清洗方法和服务器有效
申请号: | 201310495796.8 | 申请日: | 2013-10-21 |
公开(公告)号: | CN103559225B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 孙海龙;刘旭东;郭莉莎;李春娥 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司11205 | 代理人: | 刘芳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | web 服务 资源库 数据 清洗 方法 服务器 | ||
技术领域
本发明涉及信息技术领域,尤其涉及一种Web服务资源库数据的清洗方法和服务器。
背景技术
随着服务计算和网络化软件技术的发展,通过组合多个简单服务来满足复杂应用需求已成为网络化软件开发的重要方法。Web服务资源库即可实现在Web网络中主动发现可重用的服务,分析不同Web服务的功能并对可重用服务资源进行收集、描述、组织和管理,Web服务资源库是辅助服务发现和使用的关键途径。
Web服务资源库一方面允许用户注册服务资源,一方面从网络爬取公开的服务。随着资源库中Web服务数量的增多,服务资源的质量问题也随之凸显。资源的大量完全重复、功能描述信息不完整、暂时不可用资源过多等,均对Web网的整体服务造成影响。
目前,针对数据仓库中的数据的管理常采用一种数据清洗技术。在数据库中通常存在许多错误数据、相互之间有冲突的数据,这些错误的或有冲突的数据被称为“脏数据”,按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。虽然现有技术中,存在很多数据清洗算法以及清洗工具,但这些算法以及工具都是和特定领域相关的,领域知识在数据清洗过程中是必不可少的一部分。很多情况下,只有结合特定应用领域的知识才可以更高效地完成相应的数据清洗。但就目前的市场上,还没有针对Web服务资源库数据的清洗方案。
发明内容
本发明提供一种Web服务资源库数据的清洗方法和服务器,用以提供一套针对Web服务资源库数据的清洗方案。
一方面,本发明实施例提供一种Web服务资源库数据的清洗方法,包括:
服务器获取Web服务资源库中多个Web服务的描述语言WSDL文件;
所述服务器对所述多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合;
针对于每个所述Web服务集合中的各Web服务,所述服务器计算每两个所述Web服务对应的WSDL文件间的编辑距离,并在所述编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;
所述服务器根据每个所述Web服务集合中各Web服务之间的所述连通关系构建各所述Web服务集合对应的连通组图,所述连通组图包括至少一个连通子图;
所述服务器将每个所述连通子图中度最大的一个Web服务作为第一Web服务,并删除所述连通子图中除所述第一Web服务外的其他Web服务。
另一方面,本发明实施例提供一种服务器,包括:获取模块、分类模块、计算模块、建立模块和处理模块;
所述获取模块,用于获取Web服务资源库中多个Web服务的描述语言WSDL文件;
所述分类模块,用于对所述多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合;
所述计算模块,用于针对于每个所述Web服务集合中的各Web服务,计算每两个所述Web服务对应的WSDL文件间的编辑距离,并在所述编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;
所述建立模块,用于根据每个所述Web服务集合中各Web服务之间的所述连通关系构建各所述Web服务集合对应的连通组图,所述连通组图包括至少一个连通子图;
所述处理模块,用于将每个所述连通子图中度最大的一个Web服务作为第一Web服务,并删除所述连通子图中除所述第一Web服务外的其他Web服务。
本发明提供的Web服务资源库数据的清洗系统方法和服务器,通过对获取的Web服务资源库中多个的Web服务的描述语言WSDL文件进行分类,得到多个不同类别的Web服务集合;针对于每个Web服务集合中的各Web服务,计算每两个Web服务对应的WSDL文件间的编辑距离,并在编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图,该连通组图包括至少一个连通子图;将每个连通子图中度最大的一个Web服务作为第一Web服务,并删除该连通子图中其他Web服务,进而提供一种针对Web服务资源库数据的清洗方案。
附图说明
图1为本发明提供的Web服务资源库数据的清洗方法一个实施例的流程图;
图2(图2a,图2b)为本发明提供的Web服务资源库数据的清洗方法另一个实施例的流程图;
图3为本发明提供的元素标签树的结构示意图;
图4为本发明提供的服务器一个实施例的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310495796.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:散热铝基电路板
- 下一篇:背接触式太阳能电池的太阳能背板
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置