[发明专利]基于全视角特征的跨社交网络用户识别方法有效
申请号: | 201710674020.0 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107480714B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 申德荣;汪潜;聂铁铮;寇月;于戈 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/00 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 俞鲁江 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于全视角特征的跨社交网络用户识别方法,首先,对多个社交网络进行社区划分,并初始化参考点。接着,迭代地进行以下三个步骤:(1)利用参考点计算未识别用户的全视角特征,以计算用户之间相似度;(2)采用改进的稳定婚姻匹配算法来完成用户识别工作;(3)对于新识别用户对,根据社区中心度等特征对参考点集合进行更新。不断重复以上3个步骤,直到参考点集合不再更新,得到匹配的锚链接用户集合。采用本发明的跨社交网络用户识别方法,一方面考虑了用户在社交网络上的全局位置,提高了用户识别方法的准确率和召回率;另外,通过迭代调整的识别策略,既解决了多个相似度相近的用户对的正确识别问题,也避免了冷启动的问题。 | ||
搜索关键词: | 基于 视角 特征 社交 网络 用户 识别 方法 | ||
【主权项】:
一种基于全视角特征的跨社交网络用户识别方法,其特征在于:包括以下步骤:步骤1.全视角特征相似度求解;本步骤的主要目的是求解社交网络用户的全视角特征,同时根据用户的全视角特征计算用户之间的全视角特征相似度;以用户和社交网络上已知匹配用户的关系,作为全视角特征;可以看出,用户和不同已知匹配用户之间的关系不同,可以反映用户的兴趣特征和身份特质,因而是全局的;主要分为以下两个子步骤:步骤1‑1.全视角特征求解;给定G=(U,E,A)来表示社交网络,其中U代表用户集合,E代表用户之间的关系集合,A代表用户的属性集合;为了方便计算,把社交网络看作是由用户之间关系集合构建的结构图;初始给定有部分已知匹配用户,这部分已知匹配用户可以通过人工去选取并识别;将这些已知匹配用户作为参照点,对于某一用户u,以用户及其邻居到社交网络上已知匹配用户的最近路径距离作为全视角特征;如公式1所示,对于用户到每个已知匹配用户进行这样的计算,其中N(u)代表用户的邻居,d(li,j)代表用户到已知匹配用户的距离,d(li,j)代表邻居到已知匹配用户的距离;r(li,u)=d(li,u)+Σj∈N(u)d(li,j)1+|N(u)|---(1)]]>这样,如公式2所示,将每个用户表示成全视角特征向量;F(u)=(r(l1,u),r(l2,u)…r(l|L(U)|,u)) (2)步骤1‑2.全视角特征相似度计算;对于得到的代表用户全视角特征的特征向量,如公式3所示,采用余弦公式来计算用户之间全视角特征相似度;SimGSS(u,v)=F(u)×F(v)||F(u)||||F(v)||---(3)]]>其中u和v分别为代表不同社交网路上的两个用户;步骤2.用户相似度计算阶段;在考虑用户的全视角特征后,还需要考虑用户在属性和局部结构上的特征相似度;如下公式4所示,结合传统已有的属性相似度和局部结构相似度计算方法来综合计算用户之间的相似度,其中u和v分别为代表不同社交网路上的两个用户,α为衡量不同相似度计算结果的权值,SimGSS为全视角特征相似度,Simattr&structure为属性和局部结构特征相似度;Sim(u,v)=αSimGSS(u,v)+(1‑α)Simattr&structure(u,v) (4)步骤3.用户匹配阶段;步骤1中以所有已知匹配用户作为参照点,当已知匹配用户分布不均时,识别结果准确率和召回率较低;本步骤通过改进的稳定婚姻匹配方法来识别用户并提高匹配准确率;同时采用迭代的识别策略,在每轮迭代结束后,更新参考点集合进行下一轮的迭代,提高识别召回率;步骤3‑1.改进的稳定婚姻匹配;传统的稳定婚姻匹配算法当一对用户彼此之间都认为对方是自己最“理想”的用户时,即相似度大于和其他用户的相似度,认为该对用户最稳定,代表了同一用户实体;改进的稳定婚姻匹配方法,当同时有多个用户和某用户的相似度结果较为接近时(即差值小于阈值时),不再认为这样用户识别结果有效,存在误识别的可能性,需要通过下次迭代,来继续识别;步骤3‑2.参考点集合更新;为了避免参考点分布不均,这里采用了有效的集合更新策略;为此首先将各社交网络采用已有社区划分方法划分成不同社区;接下来在社区内部进行相同的参考点更新策略:在社区内部,当已有的参考点数量少于设定的阈值时,将每轮新识别的用户加入参考点集合中;当数量超过阈值时,分别计算社区内参考点的中心度,根据中心度大小,决定是否替换掉集合当前中心度最小的参考点;中心度公式如下所示,其中u,v代表是一对识别出的用户,|N(u)|和|N(v)|分别代表用户的邻居数量,而|NC(u)(u)|和|NC(v)(v)|分别代表和该用户处于同一社区的邻居数量;通过这样更新策略,使参考点分布均匀,也降低了全视角特征计算的时间复杂度;C(u,v)=|NC(u)(u)|/|N(u)|+|NC'(v)(v)|/|N(v)| (5)重复上述的相似度计算和用户匹配步骤,直到参考点集合不再更新或不再有新的用户匹配结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710674020.0/,转载请声明来源钻瓜专利网。