[发明专利]一种融合词向量扩充和主题模型的服务分布式聚类方法有效

专利信息
申请号: 202110434605.1 申请日: 2021-04-22
公开(公告)号: CN113139599B 公开(公告)日: 2023-08-08
发明(设计)人: 杨冬菊;何丹 申请(专利权)人: 北方工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F18/23213;G06F40/284;G06F40/30
代理公司: 北京泛华伟业知识产权代理有限公司 11280 代理人: 王勇
地址: 100041 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 向量 扩充 主题 模型 服务 分布式 方法
【说明书】:

发明提供一种融合词向量扩充和主题模型的服务分布式聚类方法,包括:步骤1,提取服务描述文本中的服务特征词;步骤2,获取所述服务特征词的词向量,生成服务描述库;步骤3,根据服务特征词的词向量基于主题模型获取服务文档‑主题矩阵;步骤4,基于所述文档‑主题矩阵进行服务的分布式聚类,并对服务类簇进行语义建模。本发明通过词向量的扩充和BTM的应用,使得服务描述拥有语义特性,缓解了服务描述短文本特征稀疏的问题;本发明将k‑means算法与canopy算法相融合,降低了算法迭代次数;采用基于内存的Spark框架,避免大量磁盘I/O,提升了服务聚类效率;基于特征提取的服务类簇的语义建模方法,为优化服务组织和管理提供支撑。

技术领域

本发明涉及服务计算领域,具体涉及服务组织管理,更具体涉及一种融合词向量扩充和主题模型的服务分布式聚类方法。

背景技术

软件行业中,传统的软件架构为单体架构,随着各种计算机技术在软件行业的迅速发展,单体模式越来越难以满足软件复用和资源集成等方面的复杂需求,在此背景下,服务计算得以迅速发展。

服务是一种低耦合、模块化、自描述、封装良好的分布式计算模型。服务最初是由Ariba、IBM和Microsoft等公司共同提出的,旨在为Internet上跨越不同地域、不同行业的应用提供更强大的互操作能力。服务提供者发布服务到互联网上后,服务消费者找到自己期望的服务进行绑定即可使用。服务消费者无需了解服务内部的实现逻辑、编程语言、操作系统,也即服务具有平台独立的特性。这意味着,用户不需要自己实现该模块的软件研发,直接调用该服务即可得到期望的执行结果,从而实现了软件复用,大大降低了研发成本。对于复杂的需求,用户可以通过服务组合,即调用多个不同服务来满足需求。

各领域的可用服务越来越多,海量服务之间的互联互通形成了服务互联网。在此背景下,服务计算也面临新的问题与挑战:服务数量呈指数级增长,造成信息过载,使得服务的组织管理和检索存在较大压力,海量的服务已经超过人工能接受与处理的有效范围。如果不对服务进行组织,服务消费者查找服务时只能进行全局搜索,空间和时间成本都很高。

研究人员将机器学习、知识图谱、本体等方面的技术研究,应用在服务组织和管理领域。服务组织管理技术包括服务社区、服务本体建模、服务分类、服务知识图谱、服务组合、服务网络、服务聚类等。其中,服务聚类是一种有效的服务组织管理方式。聚类是一种无监督的机器学习方法,服务聚类通常根据服务的功能属性进行聚类。服务描述文本富含服务的功能属性,因而常常被应用于服务聚类中。

服务聚类可以分为基于向量空间模型(Vector Space Model,VSM)的服务聚类方法,以及基于主题模型的服务聚类方法。

基于向量空间模型的服务聚类方法,从服务描述文本中提取服务特征词,对其构造向量空间,以达到文本计算转化为向量运算的目的。该方法假定服务特征词汇相互独立,缺乏考虑服务文本的语义影响。

与向量空间模型相比,基于主题模型的服务聚类方法能够依据“词共现”数据,揭示服务描述文本的潜在主题信息,挖掘服务与服务之间的潜在特征。然而,服务描述文本通常为短文本,特征稀疏,特征提取存在一定困扰。主题模型往往难以在特征稀疏的服务描述文本中表现良好的能力。

服务数量的急速增长,以及服务库“去中心化”的分布式存储方式给服务聚类带来压力。服务聚类算法大多需要频繁迭代,单机难以应对日益增长的服务总量。服务聚类面临着服务数据集维度大、服务聚类结果集大的现象。“单机瓶颈”问题致使服务存储能力受限,且服务聚类参数训练效率低下。

发明内容

为解决上述现有技术中存在的问题,提供一种融合词向量扩充和主题模型的服务分布式聚类方法,包括:

步骤1,提取服务描述文本中的服务特征词;

步骤2,获取所述服务特征词的词向量,生成服务描述库;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110434605.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top