[发明专利]一种两个不同平台下同一用户识别方法及系统在审
申请号: | 201510221212.7 | 申请日: | 2015-05-04 |
公开(公告)号: | CN104778388A | 公开(公告)日: | 2015-07-15 |
发明(设计)人: | 李寿山;王晶晶;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F21/31 | 分类号: | G06F21/31;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 两个 不同 平台 同一 用户 识别 方法 系统 | ||
技术领域
本申请涉及同一用户识别领域,特别涉及一种两个不同平台下同一用户识别方法及系统。
背景技术
随着技术的发展,人们对匹配不同微博网站之间同一个人的账号越来越关注。
经分析可知,同一用户的个人信息(用户名、昵称、性别、所在地和年龄)即使在不同的平台下仍然表现出明显的相似性,这样,可以充分利用用户的个人信息,来探索识别不同平台下的同一用户的方法。
因此,如何有效的识别两个不同平台下的同一用户是本领域技术人员目前需要解决的技术问题。
发明内容
本申请所要解决的技术问题是提供一种两个不同平台下同一用户识别方法及系统,能够有效的识别两个不同平台下的同一用户。
其具体方案如下:
一种两个不同平台下同一用户识别方法,该方法包括:
采集两个不同平台下的个人资料信息;
对所述采集的个人资料信息进行标注;
对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;
利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
上述的方法,优选的,所述两个不同平台分别为新浪微博和腾讯微博,所述采集两个不同平台下的个人资料信息,包括:
构建用户队列;
挑选一个微博用户作为种子用户,加入到所述用户队列中;
从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中;
重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
上述的方法,优选的,所述对采集的个人资料信息进行标注,包括:
对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类,对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
上述的方法,优选的,所述对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本,包括:
对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为训练样本;
对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为测试样本。
上述的方法,优选的,所述利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户,包括:
计算待测样本集与训练样本集之间的余弦相似度;
按照距离递增次序排序;
选取与当前待测样本距离最小的k个训练样本;
确定前k个训练样本所在类别的出现频率;
返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
一种两个不同平台下同一用户识别系统,该系统包括:
采集单元,用于采集两个不同平台下的个人资料信息;
标注单元,用于对所述采集的个人资料信息进行标注;
特征抽取单元,用于对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;
类别识别单元,用于利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
上述的系统,优选的,所述两个不同平台分别为新浪微博和腾讯微博,所述采集单元包括:
构建单元,用于构建用户队列;
挑选单元,用于挑选一个微博用户作为种子用户,加入到所述用户队列中;
抓取单元,用于从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中;
重复单元,用于重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
上述的系统,优选的,所述标注单元包括:
第一标注子单元,用于对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类;
第二标注子单元,用于对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
上述的系统,优选的,所述特征抽取单元包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510221212.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:身份认证系统及其方法
- 下一篇:采用计算模型优化包核颜料核/壳比的确定方法