[发明专利]一种对象聚类方法和系统有效
申请号: | 202110159392.6 | 申请日: | 2021-02-05 |
公开(公告)号: | CN112529115B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 李龙飞;周俊 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对象 方法 系统 | ||
1.一种用户聚类方法,所述方法包括:基于多个用户及用户间的关联关系构造图数据;其中,所述图数据包括多个节点以及节点间的边权信息,所述节点与用户对应,所述节点间的边权信息反映对应用户间的关联关系;图数据表示为节点矩阵与邻接矩阵,节点矩阵的行或列与节点一一对应,一行或列表示该节点对应的用户的数值化的属性或特征,邻接矩阵的元素表示相应两个节点对应的用户之间的关联关系;对图神经网络模型进行一轮或多轮迭代更新,并将最后一轮迭代更新获得的图数据的节点类簇作为节点聚类结果,进而基于节点聚类结果确定用户聚类结果,其中一轮迭代更新包括:
将图数据的节点矩阵与邻接矩阵作为图神经网络模型的输入,以便利用图神经网络模型处理图数据,得到各节点的嵌入向量,以及基于各节点的嵌入向量确定的节点间的边权预测信息;所述各节点的嵌入向量为所述图神经网络模型的输出层或隐层得到的各节点的向量表示;
利用聚类算法处理各节点的嵌入向量,得到一个或多个类簇;
确定每个类簇的中心点的嵌入向量,并基于各节点及各中心点的嵌入向量,计算各节点与其所在类簇的中心点的距离;
调整所述图神经网络模型的模型参数,以减小所述节点间的边权预测信息与所述节点间的边权信息的差异,以及减小各节点与其所在类簇的中心点的距离。
2.如权利要求1所述的方法,所述基于各节点的嵌入向量确定的节点间的边权预测信息,包括对各节点中的任意两个节点:
计算该两个节点的嵌入向量的内积,将内积结果作为该两个节点的边权预测信息。
3.如权利要求1所述的方法,所述确定每个类簇的中心点的嵌入向量,包括:
计算类簇中各节点的嵌入向量的均值;
基于所述均值确定该类簇的中心点的嵌入向量。
4.如权利要求1所述的方法,各个类簇的中心点的嵌入向量通过所述聚类算法得到。
5.如权利要求1所述的方法,所述调整所述图神经网络模型的模型参数,以减小所述节点间的边权预测信息与所述节点间的边权信息的差异,以及减小各节点与其所在类簇的中心点的距离,包括:
构造第一损失函数,所述第一损失函数与节点间的边权预测信息和节点间的边权信息的差异正相关;
构造第二损失函数,所述第二损失函数与各节点与其所在类簇的中心点的距离之和正相关;
构造联合损失函数,所述联合损失函数与第一损失函数、第二损失函数均正相关;
调整所述图神经网络模型的模型参数,以减小联合损失函数。
6.如权利要求5所述的方法,所述构造联合损失函数,包括:
将第一损失函数与第二损失函数按预设比例求和,得到所述联合损失函数;其中,预设比例可调。
7.如权利要求1所述的方法,所述图神经网络模型包括GCN或GraphSage;
所述聚类算法包括K-Means聚类算法、均值偏移聚类算法、DBSCAN聚类算法、高斯混合聚类算法或层次聚类算法;
所述距离包括余弦距离或欧氏距离。
8.如权利要求1所述的方法,所述一轮迭代更新还包括:
将当前轮迭代获得的各图数据的节点的嵌入向量组成矩阵,作为更新后的节点矩阵,邻接矩阵保持不变,以便进行下一轮迭代更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110159392.6/1.html,转载请声明来源钻瓜专利网。