[发明专利]网络数据的聚类方法、聚类装置、电子设备及介质在审
申请号: | 202110450664.8 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113139056A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 朱书苗;颜开华;邓洁;经纬 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 赵婷 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 数据 方法 装置 电子设备 介质 | ||
1.一种网络数据的聚类方法,包括:
获取Q个网络数据对象的描述文本与标签,其中,Q为大于1的整数;
针对每个所述网络数据对象,
基于所述网络数据对象的描述文本中的词语与所述网络数据对象的标签的语义相似度,得到与该词语对应的语义关联系数,所述语义关联系数用于衡量对应的词语与所述网络数据对象的服务功能的相关程度;以及
基于每个词语对应的所述语义关联系数,处理所述网络数据对象的描述文本,得到所述网络数据对象的文本特征向量;以及
基于Q个所述网络数据对象的文本特征向量,对Q个所述网络数据对象进行聚类。
2.根据权利要求1所述的方法,其中,所述基于所述网络数据对象的描述文本中的词语与所述网络数据对象的标签的语义相似度,得到与该词语对应的语义关联系数包括:
基于每个词语对应的特征词向量与标签词向量集合中每个标签词向量的相似度的累加,得到该词语对应的文本语义权重;所述语义关联系数包括所述文本语义权重;
其中,
所述标签词向量集合为对所述网络数据对象的标签进行处理后得到的词向量的集合,所述标签词向量集合所包含的所述标签词向量的个数等于或大于所述网络数据对象的标签中标签词的个数。
3.根据权利要求2所述的方法,其中,所述基于所述网络数据对象的描述文本中的词语与所述网络数据对象的标签的语义相似度,得到与该词语对应的语义关联系数还包括:
基于每个词语对应的所述文本语义权重与该词语在Q个所述网络数据对象中统计得到的词频-逆向文本频率TF-IDF值,得到该词语的语义词频融合权重;其中,所述语义关联系数包括所述语义词频融合权重。
4.根据权利要求2所述的方法,其中,所述基于所述网络数据对象的描述文本中的词语与所述网络数据对象的标签的语义相似度,得到与该词语对应的语义关联系数还包括:
利用Word2vec模型处理所述网络数据对象的描述文本,得到所述网络数据对象对应的特征词向量集合,其中,所述特征词向量集合为所述网络数据对象的描述文本中的词语对应的所述特征词向量组成的集合;以及
利用所述Word2vec模型处理所述网络数据对象的标签,得到所述所述标签词向量集合。
5.根据权利要求4所述的方法,其中,所述利用所述Word2vec模型处理所述网络数据对象的标签,得到所述所述标签词向量集合包括:
利用所述Word2vec模型查找与所述网络数据对象的标签中每个标签词最为相似的R个词,其中,R为大于或等于1的整数;
将所述网络数据对象的标签中的全部标签词、以及与每个标签词最为相似的R个词合并在一起,得到扩充标签集合;以及
利用所述Word2vec模型处理所述扩充标签集合,得到所述标签词向量集合。
6.根据权利要求1~5任意一项所述的方法,其中,所述基于每个词语对应的所述语义关联系数,处理所述网络数据对象的描述文本,得到所述网络数据对象的文本特征向量包括:
处理所述网络数据对象的描述文本,得到所述网络数据对象对应的特征词向量集合,其中,所述特征词向量集合为由所述网络数据对象的描述文本中的词语对应的特征词向量组成的集合;以及
以每个词语对应的所述语义关联系数作为该词语对应的所述特征词向量的权重,对所述特征词向量集合中的所述特征词向量进行加权处理,得到所述文本特征向量。
7.根据权利要求1所述的方法,其中,所述基于Q个所述网络数据对象的文本特征向量,对Q个所述网络数据对象进行聚类包括:
基于Q个所述网络数据对象的所述文本特征向量之间的两两相似度,构造Q*Q的相似度矩阵,其中,所述相似度矩阵中第i*j个元素表示第i个所述网络数据对象的所述文本特征向量与第j个所述网络数据对象的所述文本特征向量之间的相似度;以及
以所述相似度矩阵作为k-means算法的输入,对Q个所述网络数据对象进行聚类。
8.根据权利要求1所述的方法,其中,所述网络数据对象包括mushup服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110450664.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种储能系统
- 下一篇:一种金包银键合线的制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置