[发明专利]一种挖掘作弊用户的方法与装置有效
申请号: | 201110329423.4 | 申请日: | 2011-10-26 |
公开(公告)号: | CN103077172B | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 张发喜;陈洪亮;杨志峰;余衍炳;杨娜 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司44202 | 代理人: | 郝传鑫 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 作弊 用户 方法 装置 | ||
技术领域
本发明涉及计算机通信技术,特别涉及一种挖掘作弊用户的方法与装置。
背景技术
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分,例如,用户通过登录社区,发布信息或回复其他用户提出的问题,可以进行信息交流与共享并获取相应积分。其中,社区是指一种由个人或者组织构成的社会网络结构体系,该社会网络结构体系中的人或者组织通过一种或者多种关系进行关联,这些关系包含但不限于友谊关系、亲戚关系、共同兴趣关系、金钱往来关系、喜恶关系等。社区可以包含但不限于博客社区、微博社区、论坛社区、问答社区等。
在社区中,绝大多数社区用户通过社区,进行了有益的信息交流与共享,促进了社区的和谐发展,但也存在一些通过发表堆砌文字、广告或色情等内容,以增加自身曝光量或推广商品或进行网站宣传为目的的恶意用户,将这类用户称之为作弊用户,作弊用户对社区的环境、社区的和谐以及信息的传递产生非常恶劣的影响,从而降低了社区的信任度。因此,需要采用有效的反作弊方法识别作弊用户,以维护社区环境、保证信息的传递,使得反作弊在信息领域成为一个重要的研究方向。
现有的反作弊方法通常是基于网页链接分析结合检测隐藏技术进行,简要来说,通过分析网页的锚文本内容、锚文本链接、隐藏文本的内容等信息,将综合的这些信息作为网页是否作弊的表征信息,通过采用贝叶斯分类等方法计算这些表征信息,获取与预先设置的作弊网页(集)的关联强度,当获取的关联强度超过预先设定的关联强度阈值时,将该关联强度对应的网页作为作弊网页。也就是说,通过贝叶斯分类等方法分析网页的锚文本内容、锚文本链接、隐藏文本的内容等信息,按照如下公式进行计算:
式中,pi为第i个网页的关联强度,即第i个网页的作弊概率;
di是第i个网页的表征信息;
cj的值是0或者1,其中1表示作弊,如果计算得到该网页的关联强度超过预先设定的关联强度阈值,则表明该网页为作弊网页。
由上述可见,现有的反作弊方法,通过分析网页内容来确定该网页是否为作弊网页,对于确定为作弊的网页,进行过滤或删除,但未能对创建作弊网页的作弊用户进行有效识别,该作弊用户可以继续通过创建其他作弊网页进行作弊,使得用户作弊的概率较大、反作弊的效率较低;进一步地,由于社区网页中数据链接(锚文本链接)普遍较少,通过公式判别容易漏过锚文本链接少的作弊网页,而且用户水平参差不齐,创建作弊数据代价小,例如,很容易使用某个热门关键词在一篇日志中进行堆砌作弊,作弊方法层出不穷,因此,利用现有网页的链接及隐藏内容难以有效的发现作弊用户,反作弊的效率不高。
发明内容
有鉴于此,本发明的主要目的在于提出一种挖掘作弊用户的方法,有效识别作弊用户、提高社区的反作弊效率。
本发明的另一目的在于提出一种挖掘作弊用户的装置,有效识别作弊用户、提高社区的反作弊效率。
为达到上述目的,本发明提供了一种挖掘作弊用户的方法,该方法包括:
获取各用户在网络中的用户表征信息;
根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;
将用户作弊分数超过预先设置的作弊分数阈值的用户确定为作弊用户。
所述用户表征信息包括用户发表内容、和/或,用户行为。
当所述用户表征信息包括用户发表内容时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数包括:
计算用户发表内容中各单次发表内容的作弊分数;
根据各单次发表内容的作弊分数计算用户发表内容的作弊分数。
所述计算用户发表内容中各单次发表内容的作弊分数包括:
根据用户单次发表内容对应的文档中包含的文本内容,分别计算文档中重复片段的堆砌程度得分、文本文档广告或色情词汇得分、锚文本上广告或色情词汇得分、链接作弊得分以及词频分布得分,并采用机器学习模型的方法计算单次发表内容对应的作弊分数。
所述计算文档中的堆砌程度得分包括:
计算单次发表内容对应的文档中所有重复的片段数与该单次发表内容对应的文档中的所有片段数的商,所述商所述堆砌程度得分。
所述计算文本文档广告或色情词汇得分包括:
A1、获取单次发表内容对应的文本文档中包含的广告及色情词汇数与单次发表内容对应的文本文档中包含的词汇数的商;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110329423.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:变频空调
- 下一篇:一种降低空调可燃制冷剂燃爆的装置