[发明专利]一种微博广告用户检测方法有效
申请号: | 201310410578.X | 申请日: | 2013-09-10 |
公开(公告)号: | CN103458042A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 邹福泰;姚雨石;吴嘉玮 | 申请(专利权)人: | 上海交通大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L12/26;G06F17/30 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 广告 用户 检测 方法 | ||
技术领域
本发明涉及社交网络安全领域,特别是涉及一种微博广告用户检测的方法。
背景技术
在中国,在线社交网络已经成为一个主要的平台,人们在网络上搜集信息,结交志同道合的人。新浪微博被称为“Twitter”,因为它类似于Twitter。然而,从用户使用习惯和不同的文化的角度来看,我们所说的微博和Twitter是不同的。根据惠普实验室的研究,人们在微博上更喜欢转发信息而不是发表原创的微博,只要分享的有价值,人们在微博上会很热心帮助转发。此外,两者在用户体验方面也不同。在Twitter,人们只能分享文本信息,但在新浪人们也能分享照片,视频和音频。此外,新浪微博也允许用户跟帖评论微博内容并在同一时间转发,这在Twitter是不可行的。由于微博和Twitter的巨大差异,所采用的检测广告用户的方法也有所不同。因此,研究新浪微博的广告用户监测机制是很有意义的探索。
有许多人研究西方社交网站,然而,对中国社交网络的研究却是一片空白。无论在新浪还是Twitter广告用户都十分猖獗,原因是多方面的,一方面,微博用户数量之庞大使得新浪微博成为广告用户的目标。统计显示,人们往往在社交网站花费更多的时间,并且大多数的社交网站提供移动平台来让人们保持在线另一方面,在新浪微博散布广告消息是十分方便的。社交网络像提供给广告用户一个便利的平台来达到自己的目的。微博用户可以发布有趣的新闻故事或发布链接到他最喜欢的网站。所以广告用户经常利用这个功能创建欺诈帐户和发布链接,诱使用户点击网站。因为微博对所有统一资源定位符(Uniform Resource Locato,URL)转换为短连接——这就有可能会误导用户,如果短链接是恶意网站的网址重定向,那么其危险性就不言而喻了。另一方面,为了增加广告微博出现在搜索结果中的持续时间,广告用户经常添加无关的话热门话题或流行词。这种行为可以被广告用户用来大肆宣传自己的网站,目前,许多用户深受广告用户的骚扰,同时广告用户还降低社交网络实时搜索引擎的效率。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种微博广告用户检测方法,准确、快速、高效地识别出微博中存在的广告用户,减轻用户所受骚扰,提高社交网络实时搜索引擎的效率。
本发明解决上述技术问题的技术方案如下:一种微博广告用户检测方法,包括以下步骤:
步骤1收集微博用户数据,并进行人工类别标识;
步骤2对所述步骤2中的所述用户进行特征抽取,并选取出特征属性集;
步骤3根据步骤1标识好的用户类别以及步骤2抽取的特征属性集,利用数据挖掘分类算法进行模型训练,得到用户判别模型;
步骤4利用所述步骤3中训练得到的所述用户判别模型对微博广告用户进行预测。
进一步地,所述步骤1具体步骤如下:
步骤1-1通过新浪API收集一个用户的数据,获得所述一个用户的粉丝和关注者,并加入他们的账户到用户列表,从用户列表中选择下一个用户的账户,并将所述一个用户的粉丝和关注者的账户加入到用户列表,得到所述用户的社交图;
步骤1-2根据所述一个用户的社交图获取图中每一用户对应的用户数据,即通过新浪API访问所述用户微博主页,获取所述用户的用户数据,包括用户的个人资料和发表的微博内容;
步骤1-3步骤1-3、根据收集到所述用户数据,通过人工判别为所述每个用户添加一个标签,将所述用户分类标识为广告用户和普通用户。
进一步地,所述步骤2的具体步骤如下:
步骤2-1、从所述步骤1中得到的所述用户数据中确定可能具有区分度的属性,所述属性能反映所述用户的行为和所述用户发布的内容特点;
步骤2-2、对所述每个属性,绘制所述广告用户和普通用户的比较图,观察所述属性的区分度,所述区分度大小的判断依据是所述广告用户和普通用户在所述属性上的差异性;
步骤2-3、选取所述区分度最大的前20个所述属性作为所述特征属性集。
更进一步地,所述步骤3-1中所述属性包括内容属性和行为属性,是具有明确的数据字段或不定形式的数据,所述明确的字段数据只能取有限个值,如“性别”、“年龄”和“关系”,所述不定形式的数据指用户的文字信息输入,如“关于我”、“兴趣”和“微博内容”。
进一步地,所述步骤3的具体步骤如下:
步骤3-1、使用WEKA对所述特征属性集进行机器学习,进行分类实验;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310410578.X/2.html,转载请声明来源钻瓜专利网。