[发明专利]Web服务资源库数据的清洗方法和服务器有效

专利信息
申请号: 201310495796.8 申请日: 2013-10-21
公开(公告)号: CN103559225B 公开(公告)日: 2017-04-05
发明(设计)人: 孙海龙;刘旭东;郭莉莎;李春娥 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同立钧成知识产权代理有限公司11205 代理人: 刘芳
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: web 服务 资源库 数据 清洗 方法 服务器
【权利要求书】:

1.一种Web服务资源库数据的清洗方法,其特征在于,包括:

服务器获取Web服务资源库中多个Web服务的描述语言WSDL文件;

所述服务器对所述多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合;

针对于每个所述Web服务集合中的各Web服务,所述服务器计算每两个所述Web服务对应的WSDL文件间的编辑距离,并在所述编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;

所述服务器根据每个所述Web服务集合中各Web服务之间的所述连通关系构建各所述Web服务集合对应的连通组图,所述连通组图包括至少一个连通子图;

所述服务器将每个所述连通子图中度最大的一个Web服务作为第一Web服务,并删除所述连通子图中除所述第一Web服务外的其他Web服务。

2.根据权利要求1所述的方法,其特征在于,所述服务器对所述多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合,包括:

所述服务器提取所述多个Web服务的WSDL文件中的关键信息,所述关键信息包括该Web服务的名称信息、操作信息和消息信息;

所述服务器对所述WSDL文件中的关键信息进行分词处理,并生成每个所述WSDL文件对应的特征向量,所述特征向量中的特征项对应于所述分词处理后生成的每个关键词在所属的所述关键信息中出现的次数;

所述服务器将所述多个Web服务的对应WSDL文件对应的所述特征向量进行聚类运算,以得到多个不同类别的Web服务集合。

3.根据权利要求1或2所述的方法,其特征在于,所述针对于每个所述Web服务集合中的各Web服务,所述服务器计算每两个所述Web服务对应的WSDL文件间的编辑距离,包括:

所述服务器根据每个Web服务的所述WSDL文件中包含的元素,以及所述元素之间的关系,构建所述WSDL文件对应的元素标签树,所述元素标签树的每个节点包括对应的所述元素的文本描述信息;

所述服务器将每个所述元素的文本描述信息进行分词处理,生成每个节点对应的实词集合;

针对于每个所述Web服务集合中的每两个所述Web服务的WSDL文件,所述服务器将其对应的两个元素标签树中各相同层的节点进行比较,若存在相同层的节点数目不同,则在节点个数较少的元素标签树的相应层的位置上添加空节点,以使所述两个元素标签树中各相同层的节点的数目相同;

针对于每个所述Web服务集合中的每两个所述Web服务的WSDL文件,所述服务器计算每两个所述Web服务添加空节点后对应的两个元素标签树中各相同层的节点中每两个节点对应的所述实词集合间的语义距离;

针对于每个所述Web服务集合中的Web服务的WSDL文件,所述服务器采用二分图最佳权匹配KM算法,计算每两个所述Web服务添加空节点后对应的两个元素标签树中各相同层的节点的所有映射关系下的实词集合间的语义距离和值中的最小值,并将该最小值除以该相同层的节点个数得到的商确定为所述两个Web服务对应的两个元素标签树中对应的相同层节点间的第一编辑距离;

根据L=Snx+Σi=1,...,nSix(1-x)(n-i)]]>

确定每两个所述Web服务的WSDL文件的编辑距离L;其中,所述n为每两个所述Web服务对应的两个元素标签树中节点的层数,所述Si为所述服务器根据每两个所述Web服务对应的两个元素标签树中对应的第i层节点间的所述第一编辑距离,所述x为所述Si对应的权重因子,其为小于1的正数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310495796.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top