[发明专利]一种基于深度哈希的符号社交网络嵌入方法有效
申请号: | 201910468680.2 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110210988B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 毛先领;郭佳楠;姜晓健;孙英翔;黄河燕;牟其林;邹佳 | 申请(专利权)人: | 北京理工大学;中电科大数据研究院有限公司 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 符号 社交 网络 嵌入 方法 | ||
1.一种基于深度哈希的符号社交网络嵌入方法,其特征在于,包括以下步骤:
从公共数据集中,分别选取稀疏网络Slashdot和稠密网络Epinions,作为实验数据集,分别进行数据收集阶段、训练阶段和测试阶段的处理;具体如下:
步骤一、数据收集阶段:
步骤1:从实验数据集中,抽取每条边及边权,构成边集ε;
其中,边集ε={(vi,vj,eij)},vi、vj表示网络中的节点,边权eij∈{1,-1}表示正边和负边,正边条数为NP,负边条数为NN;
步骤2:根据边集ε,获得三元组集合eij=1,ejk=-1;方法如下:
步骤2.1:根据边集ε中正边和负边信息,分别构建正边图和负边图;其中,正边图表示原网络去除所有负边后的结构,相反可得到负边图;
步骤2.2:从正边图和负边图中,提取三元组(vi,vj,vk),vk表示负边图中与vi相邻的所有节点,具体如下
步骤2.2.1:分别选取正边图中每个节点vj;
步骤2.2.2:从正边图中,选取与vj相邻的所有节点vi;
步骤2.2.3:判断vi是否出现在负边图中,若vi出现在负边图中,则从负边图中选取与vi相邻的所有节点vk,并将(vi,vj,vk)存入集合若vi未出现在负边图中,则将(vi,vj,v0)存入集合令数据集其中,v0为设立的虚拟节点,当节点vi无负边时,假设其与节点v0以负边连接;
步骤二、进行训练:
步骤3:初始化HSNE模型中的所有参数θ;
其中,HSNE为深度哈希模型,由三部分相同且共享参数的深度哈希模型HSNEi组成;HSNEi包括网络特征学习、哈希码学习和损失函数;
网络特征学习:由Embedding层和三个全连接层组成,Embedding层维度为d0,三个全连接层维度为di;
哈希码学习:由一个全连接层和量化层组成,全连接层的维度为d;
模型的全连接层均以双曲正切函数tanh为激活函数;
步骤4:为控制模型规模,选取mini-batch大小为B;对数据集按大小划分mini-batch,对每个mini-batch,做如下训练:
步骤4.1:将输入HSNE模型,获得输出
步骤4.2:对输出进行量化,得到按照损失函数计算损失:
其中,表示模型的输出;θ表示模型参数;x0表示上述v0经模型的输出;种为步骤一所述的数据集;表示任意节点vi和vj对应的哈希码之间汉明距离,Θik表示节点vi和vk对应的哈希码之间汉明距离,Θio表示节点vi和vo对应的哈希码之间汉明距离;M表示网络中节点总个数,则xm表示网络中vm节点经模型的输出;表示步骤4.2量化结果,bm=sgn(xm);表示矩阵2-范式的平方;δ,δ0,α,η表示模型的超参数;
步骤4.3:基于梯度下降算法,反向更新模型参数
步骤5:当模型损失随训练次数epoch下降缓慢时,动态降低学习率;
步骤6:使用数据集重复步骤4至5,并基于梯度下降算法训练HSNE模型,直到模型在验证集上的损失收敛,获得最终训练好的神经网络,记为Model;
步骤7:将所有节点vi依次输入模型,并获得其量化后对应的哈希码bi,将哈希码保存为字典node2embedding;
其中,node2embedding={″node″:embedding}用于存储节点及其对应哈希码;
步骤三、进行测试:
采用链接预测评估节点哈希码表示的优劣;
步骤8:根据边集ε,依次从字典node2embedding中获取节点哈希码表示,并通过操作,将节点哈希码结合为边哈希码,构建数据集embedding以及与其对应的边标记集tag;
其中,所述操作,包括hadamard、average、l1_weight和l2_weight;
步骤9:将embedding和tag集合按照10-fold的方法,分为训练集和测试集,分别进行步骤10和11;
其中,10-fold表示10折交叉验证,将数据分为10份,逐次选取其中1份作为测试集,其余9份作为训练集;
步骤10:构建one-vs-rest逻辑回归分类器,并用训练集进行训练;
其中,将正边和负边的链接预测任务看作2分类任务;
步骤11:将测试集放入训练好的分类器中,计算AUC;
步骤12:将10-fold内所有AUC取平均值,得到平均曲线下面积,并作为节点表示优劣的评价指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学;中电科大数据研究院有限公司,未经北京理工大学;中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910468680.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用户活动配对的邀请方法
- 下一篇:一种安全隐患报告系统及其方法