[发明专利]融合社交关系和命名特征的跨社交媒体账户匹配方法有效
申请号: | 201810985465.5 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109117891B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 费高雷;杨立波;于富财;胡光岷;张乐中 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06K9/62 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 社交 关系 命名 特征 媒体 账户 匹配 方法 | ||
本发明公开了一种融合社交关系和命名特征的跨社交媒体账户匹配方法,包括以下步骤:S1、找出在账户信息中给出对应其他平台账号的用户,作为种子用户集合;S2、从种子用户集合取出一对账号信息,分别在对应的平台中提取好友的账号,并将做笛卡尔乘积,作为候选账户对;S3、进行预处理,取特征形成特征向量;S4、将特征向量输入分类器进行判别,将判别为属于同一人物实体的账户加入种子节点集合中;S5、对所有种子节点执行步骤S2~S4的操作,直至种子用户集合中没有新账户加入为止。本发明的方法降低了计算复杂度,将最终判定为不关联的用户的提取特征并进行分类判决的计算称为无效计算,大幅降低了无效计算在整个计算过程中的比例,提高了效率。
技术领域
本发明涉及一种融合社交关系和命名特征的跨社交媒体账户匹配方法。
背景技术
对于跨社交媒体的账户匹配问题,通常将其建模为一个分类问题:在给定两个用户a、b分别属于社交媒体平台A和B,研究的目的就是获得一个分类判别函数,当输入用户a和b的信息后,如果两个用户属于同一人物实体则输出1,否则输出0,如下公示所示:
跨社交媒体的人物识别方法对于数据挖掘的研究具有非常重大的意义,可以作为多种研究的前提。
现有跨社交媒体用户匹配方法的主要思想是把用户匹配转换为个二分类问题,结合文档、内容和网络等多种特征,并采用有监督学习的方法进行求解。但是现有方法还存在两方面的问题:
第一,分类模型的泛化能力差。现有研究主要着眼于特征构建以及模型选择,对于训练集和测试集构建通过挑选账户中主动提供了其它社交平台账号的用户作为正例,并在此基础上把正例中已知的匹配关系随机打乱获得负例,这种方式的缺陷是负例数据随机性较大,训练集中处于决策边界的样本数较少,导致构建的分类器不够准确。
第二,无法适用于实际应用。跨社交媒体用户匹配的使用场景通常是已知不同社交媒体账号的集合,需要将两个集合中相互对应的账号进行匹配,现有的方法通过基于聚类和模糊匹配,通常需要将不同账号集合中的账号进行依次相互比较,存在计算复杂度过高的问题,无法将该方法推广到实际海量社交媒体账号匹配。
发明内容
本发明的目的在于克服现有技术的不足,提供一种降低了计算复杂度,将最终判定为不关联的用户的提取特征并进行分类判决的计算称为无效计算,这一策略大幅降低了无效计算在整个计算过程中的比例,提高了效率,加快关联用户发现的速度的融合社交关系和命名特征的跨社交媒体账户匹配方法。
本发明的目的是通过以下技术方案来实现的:融合社交关系和命名特征的跨社交媒体账户匹配方法,包括以下步骤:
S1、将采集到的不同平台用户信息存入数据库中,找出在账户信息中给出对应其他平台账号的用户,作为种子用户集合;
S2、从种子用户集合取出一对账号信息,分别在对应的平台中提取好友的账号,并将好友两两配对,做笛卡尔乘积,形成潜在关联用户配对,作为候选账户对;
S3、对S2获得的候选账户对进行预处理,取特征形成特征向量;
S4、将步骤S3抽取的特征向量输入分类器进行判别,将判别为属于同一人物实体的账户加入种子节点集合中;
S5、对所有种子节点执行步骤S2~S4的操作,直至种子用户集合中没有新账户加入为止。
进一步地,所述步骤S4中训练分类器的具体实现方法为:
S41、根据种子用户构建训练集;
S42、用训练集训练一个初始的分类器;
S43、通过寻找在账户中给出了对方平台账号的用户对作为分类器训练集的正例,通过交叉组合的方法构建一个负例验证集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810985465.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像分类方法、装置和存储介质
- 下一篇:深度学习大尺寸图片训练检测算法