[发明专利]一种挖掘作弊用户的方法与装置有效
申请号: | 201110329423.4 | 申请日: | 2011-10-26 |
公开(公告)号: | CN103077172B | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 张发喜;陈洪亮;杨志峰;余衍炳;杨娜 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司44202 | 代理人: | 郝传鑫 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 作弊 用户 方法 装置 | ||
1.一种挖掘作弊用户的方法,其特征在于,该方法包括:
获取各用户表征信息;
根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数:当用户表征信息为用户发表内容时,根据预先设置的计分策略计算用户发表内容的作弊分数,将该用户发表内容的作弊分数作为用户作弊分数;当用户表征信息为用户行为时,根据预先设置的计分策略计算用户行为的作弊分数,将该用户行为的作弊分数作为用户作弊分数;当用户表征信息为用户发表内容以及用户行为时,根据预先设置的计分策略分别计算用户发表内容的作弊分数以及用户行为的作弊分数,并对两者进行综合得到用户作弊分数;
将用户作弊分数超过预先设置的作弊分数阈值的用户确定为作弊用户;
所述计算用户行为的作弊分数包括:
统计用户发表内容中所有文档的发表时间,得到一个时间序列,以设定的时间段为间隔,统计各时间段中的发表文档数,设时间序列被分成P个时间段,第i个时间段发表的文档数为ni,ni中关于热点话题的文档数记为mi,ni中原创的文档数记为oi,则计算用户行为的作弊分数的公式为:
式中,α为用户行为作弊系数,α≥0。
2.如权利要求1所述的方法,其特征在于,当所述用户表征信息包括用户发表内容时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数包括:
计算用户发表内容中各单次发表内容的作弊分数;根据各单次发表内容的作弊分数计算用户发表内容的作弊分数。
3.如权利要求2所述的方法,其特征在于,所述计算用户发表内容中各单次发表内容的作弊分数包括:
根据用户单次发表内容对应的文档中包含的文本内容,分别计算文档中的堆砌程度得分、文本文档广告或色情词汇得分、锚文本上广告或色情词汇得分、链接作弊得分以及词频分布得分,并采用机器学习模型的方法计算单次发表内容对应的作弊分数。
4.如权利要求3所述的方法,其特征在于,所述计算文档中的堆砌程度得分包括:
计算单次发表内容对应的文档中所有重复的片段数与该单次发表内容对应的文档中的所有片段数的商,所述商为所述堆砌程度得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110329423.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:变频空调
- 下一篇:一种降低空调可燃制冷剂燃爆的装置