[发明专利]一种Web服务构件库动态构造方法及其服务检索方法无效

专利信息
申请号: 200910092767.0 申请日: 2009-09-23
公开(公告)号: CN101650729A 公开(公告)日: 2010-02-17
发明(设计)人: 邢少敏;周伯生;孙奎英 申请(专利权)人: 北京赛柏科技有限责任公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京北新智诚知识产权代理有限公司 代理人: 张爱群
地址: 100088北京市海淀区知*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种通过对Web服务描述文档进行语义标注,从而实现基于潜在语义匹配检索的Web服务构件库动态构造方法。同时,还包括根据该构造方法所设计的服务检索方法。由于本发明所设计的Web服务构件库的构造方法及其检索方法是根据词汇语义相似度进行比较,这样一词多义、多词同义、单词单复数、误拼等问题都在一定程度上得到了解决,因此使得该Web服务检索方法的各项技术指标得到了改善。
搜索关键词: 一种 web 服务 构件 动态 构造 方法 及其 检索
【主权项】:
1、一种Web服务构件库动态构造方法,其特征在于:具体包括如下步骤:(1)通过网络爬虫从互联网上含有Web服务的站点抓取网页;(2)从网页中解析出Web服务地址信息;(3)验证Web服务地址信息,根据有效地址提取Web服务基本信息并存储;(4)依据WordNet词库,对Web服务基本信息中的输出参数进行分词和本体标注,输出参数经过分词和本体标注,产生一个集合,称为输出参数的标注集,标注集中的每个元素称为输出参数的标注项;(5)重复前述步骤(1)至步骤(4),直至形成一定规模经过分词和本体标注的Web服务集合;(6)将所述经过分词和本体标注后的Web服务集合组织形成一个特征项-文档矩阵;该特征项-文档矩阵的行和列分别由Web服务集合的所有Web服务和所有Web服务输出参数的标注项组成;该特征项-文档矩阵中的具体权重值Qij,依据计算式Qij=TFij*Log(N/ni)计算得出,该TFij=tij/aj;其中Qij为标注项i在服务j中的权重值,TFij为标注项i在服务j中出现的频率,N为Web服务集合中的服务数量,aj为服务j中输出参数的标注项总数,tij为在服务j输出参数的标注集中与标注项i相似度大于阈值的标注项的数目,ni为该输出参数标注集中含有与标注项i相似度大于阈值的服务的个数;该步骤(6)中所述标注项与标注项的相似度计算步骤如下:(6a)检查比较相似度的两个标注项是否均与WordNet词库中的词汇本体相对应;如果是,则通过步骤(6b)计算两个标注项间的相似度;如果不是,则通过步骤(6c)计算两个标注项间的相似度;(6b)所述两个标注项之间的相似度依据下述计算公式进行计算: <mrow> <mi>Sim</mi> <mrow> <mo>(</mo> <mi>c</mi> <mn>1</mn> <mo>,</mo> <mi>c</mi> <mn>2</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <msub> <mi>Sim</mi> <mi>res</mi> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mn>1</mn> <mo>,</mo> <mi>c</mi> <mn>2</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>IC</mi> <mrow> <mo>(</mo> <mi>c</mi> <mn>1</mn> <mo>)</mo> </mrow> <mo>+</mo> <mi>IC</mi> <mrow> <mo>(</mo> <mi>c</mi> <mn>2</mn> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>Simres(c1,c2)=maxc∈S(c1,c2)IC(c)IC(c)=-log p(c)p(c)=count/sum其中,c1、c2分别为进行比较的两个标注项,p(c)为WordNet词库中的词汇本体c在某个特定领域词汇本体实例集合C中的出现概率,某个特定领域词汇本体实例集合C在WordNet词库中的词汇本体实例总数为sum,某个特定领域词汇本体实例集合C中词汇本体c的本体实例数目为count;IC(c)为词汇本体c包含的信息内容;(6c)所述两个标注项之间的相似度依据下述计算公式进行计算:EditSimilarity=(maxLen-dis)/maxLen其中,EditSimilarity为编辑距离相似度,是指两个字符串之间较长的字符串的长度与两个字符串编辑距离之差占较长的字符串长度的比例;dis为编辑距离,maxLen为两个字符串中较长的字符串的长度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛柏科技有限责任公司,未经北京赛柏科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200910092767.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top