[发明专利]一种基于深度哈希的符号社交网络嵌入方法有效
申请号: | 201910468680.2 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110210988B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 毛先领;郭佳楠;姜晓健;孙英翔;黄河燕;牟其林;邹佳 | 申请(专利权)人: | 北京理工大学;中电科大数据研究院有限公司 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于深度哈希的符号社交网络嵌入方法,属于网络社交媒体技术领域。本方法利用三元组,同时保存网络中的正边和负边信息,并设计了端到端的深度哈希模型对三元组数据进行训练,最终得到标记社交网络中每个节点在汉明空间中的哈希码表示。通过对应哈希码在链接预测任务中的AUC值,评价网络嵌入方法的好坏。本发明方法对比现有技术,首次将深度哈希应用于网络嵌入任务当中,可以同时考虑标记网络中正边和负边信息,在两个真实标记社交网络中进行连接预测任务,显著提高了标记社交网络分析任务的效果。 | ||
搜索关键词: | 一种 基于 深度 符号 社交 网络 嵌入 方法 | ||
【主权项】:
1.一种基于深度哈希的符号社交网络嵌入方法,其特征在于,包括以下步骤:从公共数据集中,分别选取一种稀疏网络和稠密网络,作为实验数据集,分别进行数据收集阶段、训练阶段和测试阶段的处理;具体如下:步骤一、数据收集阶段:步骤1:从实验数据集中,抽取每条边及边权,构成边集ε;其中,边集ε={(vi,vj,eij)},vi、vj表示网络中的节点,vi、
边权eij∈{1,‑1}表示正边和负边,正边条数为NP,负边条数为NN;步骤2:根据边集ε,获得三元组集合
eij=1,ejk=‑1;方法如下:步骤2.1:根据边集ε中正边和负边信息,分别构建正边图和负边图;其中,正边图表示原网络去除所有负边后的结构,相反可得到负边图;步骤2.2:从正边图和负边图中,提取三元组(vi,vj,vk);步骤二、进行训练:步骤3:初始化HSNE模型中的所有参数θ;其中,HSNE为深度哈希模型,由三部分相同且共享参数的深度哈希模型HSNEi组成;HSNEi包括网络特征学习、哈希码学习和损失函数;网络特征学习:由Embedding层和三个全连接层组成,Embedding层维度为d0,三个全连接层维度为di;哈希码学习:由一个全连接层和量化层组成,全连接层的维度为d;模型的全连接层均以双曲正切函数tanh为激活函数;步骤4:为控制模型规模,选取mini‑batch大小为B;对数据集
按大小划分mini‑batch,对每个mini‑batch,做如下训练:步骤4.1:将
输入HSNE模型,获得输出
步骤4.2:对输出进行量化,得到
按照损失函数计算损失:
其中,
表示模型的输出;θ表示模型参数;x0表示上述v0经模型的输出;
和
为步骤一所述的数据集;,
表示任意节点vi和vj对应的哈希码之间汉明距离;M表示网络中节点总个数,则xm表示网络中vm节点经模型的输出;
表示步骤4.2量化结果,bm=sgn(xm);
表示矩阵2‑范式的平方;δ,δ0,α,η表示模型的超参数;步骤4.3:基于梯度下降算法,反向更新模型参数θ;步骤5:当模型损失随训练次数epoch下降缓慢时,动态降低学习率;步骤6:使用数据集
重复步骤4至5,并基于梯度下降算法训练HSNE模型,直到模型在验证集上的损失收敛,获得最终训练好的神经网络,记为Model;步骤7:将所有节点vi依次输入模型,并获得其量化后对应的哈希码bi,将哈希码保存为字典node2embedding;其中,node2embedding={"node":embedding}用于存储节点及其对应哈希码;步骤三、进行测试:采用链接预测评估节点哈希码表示的优劣;步骤8:根据边集ε,依次从字典node2embedding中获取节点哈希码表示,并通过操作,将节点哈希码结合为边哈希码,构建数据集embedding以及与其对应的边标记集tag;其中,所述操作,包括hadamard、average、l1_weight和l2_weight;步骤9:将embedding和tag集合按照10‑fold的方法,分为训练集和测试机,分别进行步骤10和11;其中,10‑fold表示10折交叉验证,将数据分为10份,逐次选取其中1份作为测试集,其余9份作为训练集;步骤10:构建one‑vs‑rest逻辑回归分类器,并用训练集进行训练;其中,将正边和负边的链接预测任务看作2分类任务;步骤11:将测试机放入训练好的分类其中,计算AUC;步骤12:将10‑fold内所有AUC取平均值,得到平均曲线下面积,并作为节点表示优劣的评价指标。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学;中电科大数据研究院有限公司,未经北京理工大学;中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910468680.2/,转载请声明来源钻瓜专利网。
- 上一篇:用户活动配对的邀请方法
- 下一篇:一种安全隐患报告系统及其方法