[发明专利]一种跨社交网络用户对齐方法以及装置有效
申请号: | 202110545701.3 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113409157B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 蔡晓东;王鑫岚 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 尉保芳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社交 网络 用户 对齐 方法 以及 装置 | ||
1.一种跨社交网络用户对齐方法,其特征在于,包括如下步骤:
导入社交网络用户数据,并构建用于进行特征提取的训练模型,根据所述社交网络用户数据对所述训练模型进行优化处理,得到优化模型;
导入待测社交网络用户数据,通过所述优化模型对所述待测社交网络用户数据进行对齐处理,得到用户对齐结果;
所述社交网络用户数据包括携带预设用户编号的多个社交网络用户子数据,每个所述社交网络用户子数包括用户属性信息、结构数据和真实值;所述构建用于进行特征提取的训练模型的过程包括如下步骤:
从每个所述社交网络用户子数据中获得用户属性信息,并分别对各个所述用户属性信息进行属性特征提取,得到与各个所述预设用户编号对应的属性特征向量组;
从每个所述社交网络用户子数据中获得结构数据,并分别对各个所述结构数据进行结构特征提取,得到与各个所述预设用户编号对应的结构特征向量;
从每个所述社交网络用户子数据中获得真实值,并将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算,得到融合损失函数;
所述根据所述社交网络用户数据对所述训练模型进行优化处理,得到优化模型的过程包括:
根据所述融合损失函数对所述训练模型进行参数更新,得到优化模型;
所述用户属性信息包括邻居节点信息和多个用户属性参数,多个所述用户属性信息两两对应;所述分别对各个所述用户属性信息进行属性特征提取,得到与所述预设用户编号对应的属性特征向量组的过程包括:
分别对与所述预设用户编号对应的多个所述用户属性参数进行单词特征提取,得到与所述用户属性参数对应的多个单词特征向量;
分别对各个所述单词特征向量进行信息的平衡处理,得到与所述单词特征向量对应的单词平衡向量;
通过TextCNN卷积网络分别对多个所述单词平衡向量进行局部特征提取,得到与所述用户属性参数对应的局部特征向量组;
分别对各个所述局部特征向量组进行评估处理,得到与所述用户属性参数对应的语义特征向量;
通过第一式分别对与所述预设用户编号对应的多个所述语义特征向量进行融合,得到与所述预设用户编号对应的融合属性特征向量,所述第一式为:
其中,zik为预设用户编号i的第k个属性的语义特征向量,γk∈R,γk为要学习的相应加权参数,vi为融合属性特征向量,m为预设用户编号对应的语义特征向量的个数;
根据各个所述邻居节点信息得到与所述预设用户编号相邻的预设用户编号,并将所述相邻的预设用户编号对应的融合属性特征向量作为邻居属性特征向量;
分别对两两对应的所述用户属性信息各自所对应的所述融合属性特征向量以及与各自的所述融合属性特征向量对应的多个所述邻居属性特征向量进行向量融合,得到与所述预设用户编号对应的属性特征向量组
所述分别对与所述预设用户编号对应的多个所述用户属性参数进行单词特征提取,得到与所述用户属性参数对应的多个单词特征向量的过程包括:
分别对与所述预设用户编号对应的多个所述用户属性参数进行单词划分,得到与各个所述用户属性参数对应的多个单词信息,并将各个所述单词信息转换为单词向量;
分别对各个所述单词信息进行字符划分,得到与所述单词信息对应的多个字符信息,并将各个所述字符信息转换为字符向量;
通过预设一维卷积层分别对各个所述字符向量进行特征提取,得到与所述字符向量对应的字符特征向量;
通过预设最大池化层分别对各个所述字符特征向量进行筛选,经筛选得到与所述单词信息对应的多个字符筛选向量;
分别对各个所述单词向量和与所述单词向量对应的多个字符筛选向量进行向量拼接,得到与所述单词向量对应的单词特征向量
所述分别对各个所述单词特征向量进行信息的平衡处理,得到与所述单词特征向量对应的单词平衡向量的过程包括:
通过第二式分别对各个所述单词特征向量进行信息平衡处理,得到与所述单词特征向量对应的单词平衡向量,所述第二式为:
z=t⊙g(WHh+bH)+(1-t)⊙h,
其中,t=σ(WTh+bT),
其中,WH和WT均为方阵,bH和bT均为偏置向量,g为非线性函数tanh,h为单词特征向量,z为单词平衡向量
所述分别对各个所述局部特征向量组进行评估处理,得到与所述用户属性参数对应的语义特征向量的过程包括:
通过第三式分别对各个所述局部特征向量组进行评估处理,得到与所述用户属性参数对应的语义特征向量,所述第三式为:
其中,
其中,Aij=α(zi),zj∈Rd,
其中,
其中,Aij为相似度矩阵,为元素相乘,[;]为向量按行拼接,为上下文重要信息,W1T、W2T、W3T∈R2d×d,b1、b2、b3∈Rd,W1T、W2T、W3T、b1、b2和b3均为可训练参数,σ为非线性函数sigmoid,zi为局部特征向量组,为语义特征向量
所述分别对两两对应的所述用户属性信息各自所对应的所述融合属性特征向量以及与各自的所述融合属性特征向量对应的多个所述邻居属性特征向量进行向量融合,得到与所述预设用户编号对应的属性特征向量组的过程包括:
通过第四式分别对两两对应的所述用户属性信息各自所对应的所述融合属性特征向量以及与各自的所述融合属性特征向量对应的多个所述邻居属性特征向量进行向量融合,得到与所述预设用户编号对应的第一属性特征向量和与所述第一属性特征向量对应的第二属性特征向量,所述第四式为:
其中,
其中,
其中,eji为注意力系数,vi为第一个融合属性特征向量,ui为第二个融合属性特征向量,vj为第一个融合属性特征向量对应的第j个邻居属性特征向量,uj为第二个融合属性特征向量对应的第j个邻居属性特征向量,aji为归一化系数,σ(·)为非线性函数,为第一属性特征向量,为第二属性特征向量,WT和b均为要学习的模型参数;
根据各个所述第一属性特征向量和与所述第一属性特征向量对应的所述第二属性特征向量得到与所述预设用户编号对应的属性特征向量组
所述分别对各个所述结构数据进行结构特征提取,得到与各个所述预设用户编号对应的结构特征向量的过程包括:
分别对各个所述结构数据进行邻接矩阵的转换,得到与各个所述预设用户编号对应的网格结构数据;
分别对各个所述网格结构数据进行归一化处理,得到与各个所述预设用户编号对应的归一化结构数据;
通过预设卷积神经网络分别对各个所述归一化结构数据进行特征提取,得到与各个所述预设用户编号对应的结构特征向量
所述将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算,得到融合损失函数的过程包括:
通过第五式将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算,得到融合损失函数,所述第五式为:
Loss=LossCE+λLosscos,
其中,
其中,
其中,Loss为融合损失函数,LossCE为交叉熵损失,Losscos为余弦损失,为第一属性特征向量,为第二属性特征向量,y为匹配分数,yi为真实值,n为属性特征向量组的总数,为属性特征向量之间的差异,si为结构特征向量。
2.一种跨社交网络用户对齐装置,其特征在于,包括:
模型优化模块,用于导入社交网络用户数据,并构建用于进行特征提取的训练模型,根据所述社交网络用户数据对所述训练模型进行优化处理,得到优化模型;
对齐结果获得模块,用于导入待测社交网络用户数据,通过所述优化模型对所述待测社交网络用户数据进行对齐处理,得到用户对齐结果;
所述社交网络用户数据包括携带预设用户编号的多个社交网络用户子数据,每个所述社交网络用户子数包括用户属性信息、结构数据和真实值;所述模型优化模块中,构建用于进行特征提取的训练模型的过程包括:
从每个所述社交网络用户子数据中获得用户属性信息,并分别对各个所述用户属性信息进行属性特征提取,得到与各个所述预设用户编号对应的属性特征向量组;
从每个所述社交网络用户子数据中获得结构数据,并分别对各个所述结构数据进行结构特征提取,得到与各个所述预设用户编号对应的结构特征向量;
从每个所述社交网络用户子数据中获得真实值,并将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算,得到融合损失函数;
所述模型优化模块中,根据所述社交网络用户数据对所述训练模型进行优化处理,得到优化模型的过程包括:
根据所述融合损失函数对所述训练模型进行参数更新,得到优化模型;
所述用户属性信息包括邻居节点信息和多个用户属性参数,多个所述用户属性信息两两对应;所述模型优化模块中,分别对各个所述用户属性信息进行属性特征提取,得到与所述预设用户编号对应的属性特征向量组的过程包括:
分别对与所述预设用户编号对应的多个所述用户属性参数进行单词特征提取,得到与所述用户属性参数对应的多个单词特征向量;
分别对各个所述单词特征向量进行信息的平衡处理,得到与所述单词特征向量对应的单词平衡向量;
通过TextCNN卷积网络分别对多个所述单词平衡向量进行局部特征提取,得到与所述用户属性参数对应的局部特征向量组;
分别对各个所述局部特征向量组进行评估处理,得到与所述用户属性参数对应的语义特征向量;
通过第一式分别对与所述预设用户编号对应的多个所述语义特征向量进行融合,得到与所述预设用户编号对应的融合属性特征向量,所述第一式为:
其中,zik为预设用户编号i的第k个属性的语义特征向量,γk∈R,γk为要学习的相应加权参数,vi为融合属性特征向量,m为预设用户编号对应的语义特征向量的个数;
根据各个所述邻居节点信息得到与所述预设用户编号相邻的预设用户编号,并将所述相邻的预设用户编号对应的融合属性特征向量作为邻居属性特征向量;
分别对两两对应的所述用户属性信息各自所对应的所述融合属性特征向量以及与各自的所述融合属性特征向量对应的多个所述邻居属性特征向量进行向量融合,得到与所述预设用户编号对应的属性特征向量组
所述模型优化模块中,分别对与所述预设用户编号对应的多个所述用户属性参数进行单词特征提取,得到与所述用户属性参数对应的多个单词特征向量的过程包括:
分别对与所述预设用户编号对应的多个所述用户属性参数进行单词划分,得到与各个所述用户属性参数对应的多个单词信息,并将各个所述单词信息转换为单词向量;
分别对各个所述单词信息进行字符划分,得到与所述单词信息对应的多个字符信息,并将各个所述字符信息转换为字符向量;
通过预设一维卷积层分别对各个所述字符向量进行特征提取,得到与所述字符向量对应的字符特征向量;
通过预设最大池化层分别对各个所述字符特征向量进行筛选,经筛选得到与所述单词信息对应的多个字符筛选向量;
分别对各个所述单词向量和与所述单词向量对应的多个字符筛选向量进行向量拼接,得到与所述单词向量对应的单词特征向量
所述模型优化模块中,分别对各个所述单词特征向量进行信息的平衡处理,得到与所述单词特征向量对应的单词平衡向量的过程包括:
通过第二式分别对各个所述单词特征向量进行信息平衡处理,得到与所述单词特征向量对应的单词平衡向量,所述第二式为:
z=t⊙g(WHh+bH)+(1-t)⊙h,
其中,t=σ(WTh+bT),
其中,WH和WT均为方阵,bH和bT均为偏置向量,g为非线性函数tanh,h为单词特征向量,z为单词平衡向量
所述模型优化模块中,分别对各个所述局部特征向量组进行评估处理,得到与所述用户属性参数对应的语义特征向量的过程包括:
通过第三式分别对各个所述局部特征向量组进行评估处理,得到与所述用户属性参数对应的语义特征向量,所述第三式为:
其中,
其中,Aij=α(zi),zj∈Rd,
其中,
其中,Aij为相似度矩阵,为元素相乘,[;]为向量按行拼接,为上下文重要信息,W1T、W2T、W3T∈R2d×d,b1、b2、b3∈Rd,W1T、W2T、W3T、b1、b2和b3均为可训练参数,σ为非线性函数sigmoid,zi为局部特征向量组,为语义特征向量
所述模型优化模块中,分别对两两对应的所述用户属性信息各自所对应的所述融合属性特征向量以及与各自的所述融合属性特征向量对应的多个所述邻居属性特征向量进行向量融合,得到与所述预设用户编号对应的属性特征向量组的过程包括:
通过第四式分别对两两对应的所述用户属性信息各自所对应的所述融合属性特征向量以及与各自的所述融合属性特征向量对应的多个所述邻居属性特征向量进行向量融合,得到与所述预设用户编号对应的第一属性特征向量和与所述第一属性特征向量对应的第二属性特征向量,所述第四式为:
其中,
其中,
其中,eji为注意力系数,vi为第一个融合属性特征向量,ui为第二个融合属性特征向量,vj为第一个融合属性特征向量对应的第j个邻居属性特征向量,uj为第二个融合属性特征向量对应的第j个邻居属性特征向量,aji为归一化系数,σ(·)为非线性函数,为第一属性特征向量,为第二属性特征向量,WT和b均为要学习的模型参数;
根据各个所述第一属性特征向量和与所述第一属性特征向量对应的所述第二属性特征向量得到与所述预设用户编号对应的属性特征向量组
所述模型优化模块中,分别对各个所述结构数据进行结构特征提取,得到与各个所述预设用户编号对应的结构特征向量的过程包括:
分别对各个所述结构数据进行邻接矩阵的转换,得到与各个所述预设用户编号对应的网格结构数据;
分别对各个所述网格结构数据进行归一化处理,得到与各个所述预设用户编号对应的归一化结构数据;
通过预设卷积神经网络分别对各个所述归一化结构数据进行特征提取,得到与各个所述预设用户编号对应的结构特征向量
所述模型优化模块中,将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算,得到融合损失函数的过程包括:
通过第五式将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算,得到融合损失函数,所述第五式为:
Loss=LossCE+λLosscos,
其中,
其中,
其中,Loss为融合损失函数,LossCE为交叉熵损失,Losscos为余弦损失,为第一属性特征向量,为第二属性特征向量,y为匹配分数,yi为真实值,n为属性特征向量组的总数,为属性特征向量之间的差异,si为结构特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110545701.3/1.html,转载请声明来源钻瓜专利网。