[发明专利]一种融合词向量扩充和主题模型的服务分布式聚类方法有效
申请号: | 202110434605.1 | 申请日: | 2021-04-22 |
公开(公告)号: | CN113139599B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 杨冬菊;何丹 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/23213;G06F40/284;G06F40/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 向量 扩充 主题 模型 服务 分布式 方法 | ||
1.一种融合词向量扩充和主题模型的服务分布式聚类方法,包括:
步骤1,提取服务描述文本中的服务特征词;
步骤2,获取所述服务特征词的词向量,生成服务描述库;
步骤3,根据服务特征词的词向量基于主题模型获取服务文档-主题矩阵;
步骤4,基于所述文档-主题矩阵进行服务的分布式聚类,并对服务类簇进行语义建模,其中,所述步骤4包括聚类的步骤和语义建模的步骤:
所述聚类的步骤包括:
步骤C1,基于canopy聚类算法对所述服务文档-主题矩阵进行服务聚类,获得服务类簇个数以及服务类簇中心点的坐标;
步骤C2,采用k-means聚类算法进行服务聚类,其中,k-means聚类输入的初始中心点是步骤C1获得的服务类簇中心点,k-means聚类算法的k值是步骤C1获得的服务类簇中心点的个数;
其中,所述步骤C1包括:
步骤D1,将服务文档-主题矩阵分配到集群的多个节点,所述集群包括主节点和计算节点;
步骤D2,集群的每个计算节点分别执行canopy算法,并将得到的本地canopy聚类中心点发送到主节点;
步骤D3,主节点将汇总的聚类中心点广播到每个计算节点;
步骤D4,每个计算节点将汇总的聚类中心点设置为初始聚类中心点,执行局部K-Means聚类;
步骤D5,在局部K-Means聚类的基础上进行全局K-Means,直到算法收敛,得到K个聚类中心点及每个类簇所包含的服务;
所述语义建模的步骤包括:
步骤T1,根据每个服务类簇中每个服务的服务特征词的词向量与其他服务的服务特征词的词向量的相似度,计算所述每个服务的得分,基于所述得分对每个服务类簇中的服务排序,选取前k个服务作为服务类簇的服务代表;
步骤T2,根据步骤T1所述的服务代表的服务特征词的TF-IDF值,选取服务类簇的服务特征词。
2.根据权利要求1所述的方法,所述步骤2采用Word2vec的CBOW模型提取服务特征词的词向量。
3.根据权利要求1所述的方法,所述步骤3的主题模型为BTM。
4.根据权利要求3所述的方法,服务描述库的服务主题分布参数θz由以下公式计算得出,
其中,nZ是主题的个数,α是θ的超参数,|B|是语料库中所有的词对个数,K是设定的主题数目。
5.根据权利要求3所述的方法,服务主题下词项的分布参数由以下公式计算得出,
其中,b是服务词对,Z是服务主题,nb∣z表示服务主题Z下服务词对b出现的次数,M是服务描述库中所有词的总数,β是的超参数。
6.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1-5任一项方法的步骤。
7.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一项方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110434605.1/1.html,转载请声明来源钻瓜专利网。