[发明专利]异质社交网络跨平台关联用户账户挖掘方法有效
申请号: | 201811552993.8 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109635201B | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 周经亚;樊建席;王进;李领治;贾俊铖 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q50/00 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 徐洋洋 |
地址: | 215000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社交 网络 平台 关联 用户 账户 挖掘 方法 | ||
1.一种异质社交网络跨平台关联用户账户挖掘方法,其特征在于,包括:
针对不同社交网络特点,建立各自社交网络结构,任一社交网络OSNi的结构用图G(i)=(V(i),R(i))表示,其中V(i)表示顶点集合,由社交网络OSNi内多种不同类型的顶点集合构成,R(i)表示顶点间的关系集合;
根据上述步骤得到各异质社交网络的网络结构,分别提取各异质社交网络的用户交互元路径,任一社交网络OSNi的交互元路径集合用P(i)={pab}表示,其中pab表示任意一对交互用户间的元路径;
根据上述步骤得到的各异质社交网络的交互元路径集合,分别对各自网络中的用户及交互元路径进行迁移嵌入,将单个社交网络中用户账户及交互元路径嵌入到统一向量空间;
根据上述步骤的结果,利用已知关联用户训练集进行半监督学习,在异质社交网络间进行迁移嵌入,将异质社交网络用户账户和锚链接嵌入统一向量空间,基于嵌入结果进行关联用户账户挖掘,在挖掘出的关联用户账户间建立锚链接,并采用迭代式策略挖掘更多潜在关联用户账户;
其中,“根据上述步骤的结果,利用已知关联用户训练集进行半监督学习,在异质社交网络间进行迁移嵌入,将异质社交网络用户账户和锚链接嵌入统一向量空间,基于嵌入结果进行关联用户账户挖掘,在挖掘出的关联用户账户间建立锚链接,并采用迭代式策略挖掘更多潜在关联用户账户”中迁移嵌入与关联用户账户挖掘在两个异质社交网络间展开,具体方法为:
根据迁移模型,若存在锚链接边r(ij)使得ua(i)能近似转变为ux(j),即ua(i)+r(ij)≈ux(j),锚链接对应的迁移为线性关系,定义一个转化矩阵M(ij),使得M(ij)ua(i)≈ux(j)成立,由此定义跨异质网络嵌入的能量函数为:
E(ua(i),ux(j))=||M(ij)ua(i)-ux(j)||. (4)
其中,ua(i)和ux(j)分别代表社交网络i中用户账户ua和社交网络j中用户账户ux在低维空间的向量表示;
相应的得分函数定义为所有锚链接迁移的能量函数之和,即
其中A表示由已知关联用户构成的锚链接集合,λ为权值;
其次,利用已知锚链接集合A为训练集,以SP/L为目标函数进行半监督学习,获得转化矩阵;社交网络OSNi内当前每个非关联用户账户ua(i),求解arg min E(ua(i),ub(j))得到在网络OSNj中最近似的账户ux(j),通过引入超参数θ作为阈值判断账户是否关联,若超过阈值则判定ua(i)和ux(j)是一对关联账户,在账户间建立锚链接;其中,ub(j)表示社交网络j中任意用户账户在低维空间的向量表示,对于任何一个还未被关联用户账户,根据其向量表示ua(i),求解arg minE(ua(i),ub(j)),即从所有ub(j)中找出能够最小化E(ua(i),ux(j))的用户账户的向量表示ux(j);
再次,将上述挖掘过程迭代执行,每执行一轮将该轮新挖掘的关联用户账户间锚链接添加到已知锚链接集合A,从而为下一轮挖掘提供更大训练集,该迭代过程一直执行直到没有新关联用户被发现为止;
具体的迭代方法如下:
将每一轮新关联的账户锚链接(ua(i),ux(j))放入集合A,定义锚链接的综合置信度为R(ua(i),ux(i))=φ(α(θ-E(ua(i),ux(j)))), (6)
其中φ(·)是一个Sigmoid函数,α为超参数;公式(6)中,(ua(i),ux(j))表示账户锚链接,即社交网络i中用户账户ua和社交网络j中用户账户ux是关联账户,属于同一实体用户;
集合A中所有锚链接的综合置信度计算如下:
其中,r表示连接三元组另外两个用户账户的边;L′(ux(j),r,ub)和L′(ua,r,ux(j))分别表示三元组(ux(j),r,ub)和(ua,r,ux(j))的损失函数;
其中Φ(ua(i),ux(j))表示添加锚链接(ua(i),ux(j))的损失函数,而L’(ua,r,ub)则表示三元组(ua,r,ub)的损失函数,具体定义为
其中,L(ua,r,ub)表示三元组(ua,r,ub)的边际损失;
Pab表示从ua到ub的元路径集合,pab表示该集合中的一条路径;
R(pab|ua,ub)表示对于给定一对用户账户(ua,ub),二者间元路径pab的可信度;
L(pab,r)表示边r在元路径pab中的边际损失;
Γ是一个规格化因子,即
每一轮结束后计算综合置信度,若置信度显著下降,则说明本轮产生较多错误关联,退回至上一轮结束处,更新集合A,重新执行,直到置信度不再显著下降才继续迭代执行挖掘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811552993.8/1.html,转载请声明来源钻瓜专利网。