[发明专利]一种Web服务构件库动态构造方法及其服务检索方法无效
申请号: | 200910092767.0 | 申请日: | 2009-09-23 |
公开(公告)号: | CN101650729A | 公开(公告)日: | 2010-02-17 |
发明(设计)人: | 邢少敏;周伯生;孙奎英 | 申请(专利权)人: | 北京赛柏科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京北新智诚知识产权代理有限公司 | 代理人: | 张爱群 |
地址: | 100088北京市海淀区知*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 服务 构件 动态 构造 方法 及其 检索 | ||
技术领域
本发明涉及一种Web服务构件库动态构造方法及其服务检索方法。该Web服务构件库动态构造方法主要是通过对Web服务描述文档进行语义标注,从而实现基于潜在语义匹配的检索,这大大改善了传统基于具体关键字检索的检索效果和性能。属于信息检索技术领域。
背景技术
Web服务是一个崭新的分布式计算模型,是Web上数据和信息集成的有效机制。开发Web服务并开放出来,是一种非常有效的软件复用方式,不但可以达到软件复用的目的,也利用Web平台扩大了软件复用的范围,还可以利用开发Web服务打造出软件复用的产业链,探索软件复用商业模式。但是随着Internet上Web服务的快速增长,自动、准确地发现Web服务已经是Web服务技术中的难点和关键问题。于是,Web服务发现和搜索成为一个重要的研究方向。
现有的Web服务检索技术大多是基于关键字匹配进行检索,如UDDI等。这种基于关键字匹配的检索方法的发现精度不高,处理大量的Web服务时运算量过大,而且缺乏语义,只能做语法层面的处理,无法准确刻画服务的特性。例如,无法处理一词多义和多词同义的情况。再加上Web服务描述文档本身的词汇数量相对于一般文本来说相当少,所以这种基于关键字匹配的检索方法应用在Web服务发现上的实际效果并不理想。
作为对关键字检索方法的改进,语义Web服务发现技术能够准确刻画服务的功能和属性,发现精度高。于是,大量基于语义的方法被提出来。然而,在基于语义的方法中,很大一部分是基于OWL-S,WSMO或者自定义的WSDL语言,虽然这些方法在特性应用场景中取得了很好的效果,但是使用这些语言定义的服务非常少,几乎所有的Web服务都是使用标准WSDL定义的,真正使用时,需要将这些WSDL定义的Web服务转换成上述语言,这就增加了很大的难度和复杂度,所以这一类方法的实用性有限。
另外,Web服务本身所具有的自身特征也限制了对其应用基于语义匹配的检索方法。首先,Web服务描述文档词汇量少;其次,Web服务本身的参数名和操作名一般都不是完整词汇,要么是词汇简化,要么词汇组合。所以,如果只是将Web服务描述文件当作普通文本来对待,不考虑Web服务描述文件自身的特征,采用一般的基于语义匹配的检索方法效果就会受到一定的限制。因此,我们也有必要针对Web服务的自身特征对其语义匹配的检索方法进行改进和优化。
发明内容
本发明的主要目的在于解决现有Web服务检索技术中存在的问题,提供一种通过对Web服务描述文档进行语义标注,从而实现基于潜在语义匹配检索的Web服务构件库动态构造方法。同时,还包括根据该构造方法所设计的服务检索方法。
本发明的发明目的是通过下述技术方案予以实现的:
一种Web服务构件库动态构造方法,其特征在于:具体包括如下步骤:
(1)通过网络爬虫从互联网上含有Web服务的站点抓取网页;
(2)从网页中解析出Web服务地址信息;
(3)验证Web服务地址信息,根据有效地址提取Web服务基本信息并存储;
(4)依据WordNet词库,对Web服务基本信息中的输出参数进行分词和本体标注,输出参数经过分词和本体标注,产生一个集合,称为输出参数的标注集,标注集中的每个元素称为输出参数的标注项;
(5)重复前述步骤(1)至步骤(4),直至形成一定规模经过分词和本体标注的Web服务集合;
(6)将所述经过分词和本体标注后的Web服务集合组织形成一个特征项-文档矩阵;该特征项-文档矩阵的行和列分别由Web服务集合的所有Web服务和所有Web服务输出参数的标注项组成;该特征项-文档矩阵中的具体权重值Qij,依据计算式Qij=TFij*Log(N/ni)计算得出,该TFij=tij/aj;其中Qij为标注项i在服务j中的权重值,TFij为标注项i在服务j中出现的频率,N为Web服务集合中的服务数量,aj为服务j中输出参数的标注项总数,tij为在服务j输出参数的标注集中与标注项i相似度大于阈值的标注项的数目,ni为该输出参数标注集中含有与标注项i相似度大于阈值的服务的个数;
该步骤(6)中所述标注项与标注项的相似度计算步骤如下:
(6a)检查比较相似度的两个标注项是否均与WordNet词库中的词汇本体相对应;如果是,则通过步骤(6b)计算两个标注项间的相似度;如果不是,则通过步骤(6c)计算两个标注项间的相似度;
(6b)所述两个标注项之间的相似度依据下述计算公式进行计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛柏科技有限责任公司,未经北京赛柏科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910092767.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:组合式冷却器
- 下一篇:一种电壁炉用的多层排列式火焰模拟装置