[发明专利]一种融合词向量扩充和主题模型的服务分布式聚类方法有效
申请号: | 202110434605.1 | 申请日: | 2021-04-22 |
公开(公告)号: | CN113139599B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 杨冬菊;何丹 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/23213;G06F40/284;G06F40/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 向量 扩充 主题 模型 服务 分布式 方法 | ||
本发明提供一种融合词向量扩充和主题模型的服务分布式聚类方法,包括:步骤1,提取服务描述文本中的服务特征词;步骤2,获取所述服务特征词的词向量,生成服务描述库;步骤3,根据服务特征词的词向量基于主题模型获取服务文档‑主题矩阵;步骤4,基于所述文档‑主题矩阵进行服务的分布式聚类,并对服务类簇进行语义建模。本发明通过词向量的扩充和BTM的应用,使得服务描述拥有语义特性,缓解了服务描述短文本特征稀疏的问题;本发明将k‑means算法与canopy算法相融合,降低了算法迭代次数;采用基于内存的Spark框架,避免大量磁盘I/O,提升了服务聚类效率;基于特征提取的服务类簇的语义建模方法,为优化服务组织和管理提供支撑。
技术领域
本发明涉及服务计算领域,具体涉及服务组织管理,更具体涉及一种融合词向量扩充和主题模型的服务分布式聚类方法。
背景技术
软件行业中,传统的软件架构为单体架构,随着各种计算机技术在软件行业的迅速发展,单体模式越来越难以满足软件复用和资源集成等方面的复杂需求,在此背景下,服务计算得以迅速发展。
服务是一种低耦合、模块化、自描述、封装良好的分布式计算模型。服务最初是由Ariba、IBM和Microsoft等公司共同提出的,旨在为Internet上跨越不同地域、不同行业的应用提供更强大的互操作能力。服务提供者发布服务到互联网上后,服务消费者找到自己期望的服务进行绑定即可使用。服务消费者无需了解服务内部的实现逻辑、编程语言、操作系统,也即服务具有平台独立的特性。这意味着,用户不需要自己实现该模块的软件研发,直接调用该服务即可得到期望的执行结果,从而实现了软件复用,大大降低了研发成本。对于复杂的需求,用户可以通过服务组合,即调用多个不同服务来满足需求。
各领域的可用服务越来越多,海量服务之间的互联互通形成了服务互联网。在此背景下,服务计算也面临新的问题与挑战:服务数量呈指数级增长,造成信息过载,使得服务的组织管理和检索存在较大压力,海量的服务已经超过人工能接受与处理的有效范围。如果不对服务进行组织,服务消费者查找服务时只能进行全局搜索,空间和时间成本都很高。
研究人员将机器学习、知识图谱、本体等方面的技术研究,应用在服务组织和管理领域。服务组织管理技术包括服务社区、服务本体建模、服务分类、服务知识图谱、服务组合、服务网络、服务聚类等。其中,服务聚类是一种有效的服务组织管理方式。聚类是一种无监督的机器学习方法,服务聚类通常根据服务的功能属性进行聚类。服务描述文本富含服务的功能属性,因而常常被应用于服务聚类中。
服务聚类可以分为基于向量空间模型(Vector Space Model,VSM)的服务聚类方法,以及基于主题模型的服务聚类方法。
基于向量空间模型的服务聚类方法,从服务描述文本中提取服务特征词,对其构造向量空间,以达到文本计算转化为向量运算的目的。该方法假定服务特征词汇相互独立,缺乏考虑服务文本的语义影响。
与向量空间模型相比,基于主题模型的服务聚类方法能够依据“词共现”数据,揭示服务描述文本的潜在主题信息,挖掘服务与服务之间的潜在特征。然而,服务描述文本通常为短文本,特征稀疏,特征提取存在一定困扰。主题模型往往难以在特征稀疏的服务描述文本中表现良好的能力。
服务数量的急速增长,以及服务库“去中心化”的分布式存储方式给服务聚类带来压力。服务聚类算法大多需要频繁迭代,单机难以应对日益增长的服务总量。服务聚类面临着服务数据集维度大、服务聚类结果集大的现象。“单机瓶颈”问题致使服务存储能力受限,且服务聚类参数训练效率低下。
发明内容
为解决上述现有技术中存在的问题,提供一种融合词向量扩充和主题模型的服务分布式聚类方法,包括:
步骤1,提取服务描述文本中的服务特征词;
步骤2,获取所述服务特征词的词向量,生成服务描述库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110434605.1/2.html,转载请声明来源钻瓜专利网。