[发明专利]一种用于跨UGC网站平台的帐户关联方法有效
申请号: | 201510032702.2 | 申请日: | 2015-01-22 |
公开(公告)号: | CN104573057B | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 罗绪成;陈伟;刘梦娟;刘峤;蓝天;刘亚军;汤四见;赵鹏;李伟铭 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于将多个UGC网站上属于同一实体用户的账户关联起来的方法,基本原理是从UGC网站帐户生成的文本内容中提取特征来关联不同UGC网站平台上属于同一实体用户的多个帐户。该方法数据获取、数据预处理、特征提取和逐层过滤组成。数据获取部分收集目标UGC网站用户帐户生成的文本内容。数据预处理部分对文本内容进行预处理。特征提取部分从文本内容中提取性别特征、年龄特征、地理位置活动特征和写作风格特征。逐层过滤部分依次通过性别、年龄、地理位置活动和写作风格特征逐层过滤掉与给定用户账户不相关的账户。本发明能够有效解决同一实体用户在不同UGC网站上的帐户之间不相关的问题,具有很高的实用价值。 | ||
搜索关键词: | 一种 用于 ugc 网站 平台 帐户 关联 方法 | ||
【主权项】:
一种用于跨UGC网站平台的帐户关联方法,其特征在于,包括下列步骤:S1:根据用户需求确定需要关联的UGC网站,针对每个UGC网站,利用各网站的本地数据库或者网络爬虫获取所需要关联的用户帐户数据集Gi,其中,Gi的下标“i”用于标识不同的UGC网站平台所对应的用户帐户数据集;所述用户帐户数据集Gi中的每个用户帐户gik由该用户生成的文本内容组成,其中,gik的下标“i”和“k”用于标识第i个用户帐户数据集Gi中第k个用户帐户;S2:在获取用户帐户数据集Gi后,需要对其中每个用户帐户gik中的文本内容进行预处理,在UGC网站中,用户帐户gik的文本内容由一系列短文本帖子组成,以短文本帖子为单位进行预处理,所做预处理具体为:删除文本内容中非英文语言的内容;删除各个UGC网站自动添加而非用户生成的文本内容;删除特殊的、使用频率低的标识符和标点符号,即将用户帐户生成的文本内容中除了‘.’、‘,’、‘’’、‘?’、‘!’、‘;’、‘:’、‘(’、‘)’以外的标识符和标点符号删除;若用户帐户gik的某条短文本帖子中所含有的英文字符数量小于预设阈值M,则将该短文本帖子删除;若用户帐户gik含有短文本帖子数量小于预设阈值N,则从用户帐户数据集Gi中删除该用户帐户,其中,M值和N值的选取依据UGC网站中用户帐户发布短文本帖子的数量和长度,针对现有的UGC网站,选取M=10,N=20;S3:针对每个用户帐户gik,通过对预处理后的文本内容进行特征提取的方式建立用户帐户模型,用户帐户gik的模型由其性别特征,年龄特征,地理位置活动特征和写作风格特征四个方面组成,则用户账户模型表示为<性别,年龄,地理位置活动,写作风格>,其中,性别的取值范围为{男,女},年龄的取值范围为{童年,少年,青年,中年,老年},地理位置活动为地点名词集合,写作风格由一系列特征向量样本点组成;同时,用户帐户模型之间是相互独立的,即某个用户帐户文本内容的改变对其他用户帐户模型没有影响;各个特征之间是相互独立的,计算相同特征之间的相似度;S4:基于每个用户帐户的模型,采用逐层过滤的方式实现跨UGC网站平台的帐户关联,针对用户帐户数据集Gi,从中抽取一个用户帐户gik,在用户帐户数据集Gj(i≠j)中,依次利用性别特征、年龄特征、地理位置活动特征和写作风格特征,通过计算帐户模型中特征相似度和使用分类器的方式,将与用户帐户gik不相关的用户账户过滤掉,从而逐步缩小候选集,经过过滤筛选后的用户帐户集合即为在用户账户数据集Gj中与用户帐户数据集Gi中的用户帐户gik相关联的用户帐户集合;S5:针对用户帐户数据集Gi中的用户帐户gik,在用户帐户数据集Gj中采用逐层过滤的方式获得用户帐户集合后,将用户帐户集合中的用户帐户从用户帐户数据集Gj中删除,将用户帐户gik从用户帐户数据集Gi中删除,并将其加入用户帐户集合中,则用户帐户集合表示属于同一实体用户的跨UGC网站多账户,判断用户帐户数据集Gi是否为空,如果非空,则表示还有未被关联的用户帐户,进入步骤S4;如果为空,则表示用户帐户关联已经完成,将含有用户账户数量大于2的用户帐户集合输出,如果用户帐户集合中仅含有一个用户账户,则表示没有与该用户帐户相关联的跨UGC网站用户帐户,则不用输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510032702.2/,转载请声明来源钻瓜专利网。