[发明专利]挖掘作弊数据的方法和系统有效
申请号: | 201110320404.5 | 申请日: | 2011-10-20 |
公开(公告)号: | CN103064850B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 陈洪亮;张发喜;杨志峰;余衍炳;杨娜 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 杨春香,宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 挖掘 作弊 数据 方法 系统 | ||
技术领域
本发明涉及数据挖掘技术,特别涉及挖掘作弊数据的方法和系统。
背景技术
目前,在网络社区中存在大量用户参与创造的内容(UGC:User Generated Content)比如微博、博客等。由于用户的层次和目的不同,就会造成网络社区中的数据数量巨大、且出现质量良莠不齐的问题。比如,有一些用户在网络社区内发布作弊数据,该作弊数据可为低质量数据比如色情数据等,也可为通过某种手段达到增加页面曝光量或推广商品或网站(包括微博、博客、说说等)的数据,这影响了网络社区的发展。因此,挖掘网络社区中作弊数据至关重要。下面给出现有常用的挖掘网络社区作弊数据的方案:
方案一:
该方案一采用人工审核的方式,即由工作人员进行人工审核,来确定用户在网络社区发布的数据是否属于作弊数据。但是,这种人工审核的方式成本太高,难以处理每天呈几何级快速增长的UGC,不能满足需求。
方案二:
该方案二采用传统的反作弊方式,具体为:基于链接分析,挖掘出通过交换链接或者购买链接获得好的网页排名的数据,确定该挖掘出的数据为作弊数据。可以看出,该方案二相对于方案一而言,减少人工干预,降低了成本。但是,由于网络社区内UGC之间的链接信息相对比较稀疏,很难构建一张链接图,所以方案二中单一的链接分析方法不太适用,不能准确挖掘出网络社区中的作弊数据。
因此,一种在减少人工干预基础上准确挖掘出网络社区中作弊数据的方法是当前亟待解决的技术问题。
发明内容
本发明提供了挖掘作弊数据的方法和系统,以便在减少人工干预基础上准确挖掘出网络社区中作弊数据。
本发明提供的技术方案包括:
一种挖掘作弊数据的方法,该方法包括:
从当前UGC数据中提取出作弊特征;
利用提取出的作弊特征计算当前UGC数据的作弊分数;
判断所述作弊分数是否在设定的用于表示作弊数据的数值范围内,如果是,则确定所述当前UGC数据为作弊数据,对该作弊数据进行打压。
一种挖掘作弊数据的系统,该系统包括:
特征提取装置,用于从当前UGC数据中提取出作弊特征;
作弊数据挖掘装置,用于利用提取出的作弊特征计算当前UGC数据的作弊分数;
作弊数据判断装置,用于判断所述作弊分数是否在设定的用于表示作弊数据的数值范围内,如果是,则确定所述当前UGC数据为作弊数据,对该作弊数据进行打压。
由以上技术方案可以看出,本发明中,通过融合从当前UGC数据中提取出的作弊特征计算作弊分数,利用该作弊分数确定当前UGC数据是否为作弊数据,这避免人工参与,更不需要基于当前UGC数据的链接分析确定作弊数据,实现了在减少人工干预基础上准确挖掘出网络社区中作弊数据的目的,节省了成本。
附图说明
图1为本发明实施例提供的基本流程图;
图2为本发明实施例提供的机器学习模型确定示意图;
图3为本发明实施例提供的机器学习模型效果检测示意图;
图4为本发明提供的数据挖掘系统结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供的方法包括图1所示的流程:
参见图1,图1为本发明实施例提供的基本流程图。如图1所示,该流程可包括以下步骤:
步骤101,从当前UGC数据中提取出作弊特征。
本步骤101中,当前UGC数据可为网页快照,也可为网页源文件内容。其中,所述网页快照可为网页中除去html标签之外的内容,网页源文件内容可为网页源码。
在当前UGC数据为网页快照时,步骤101提取出的作弊特征至少包括重复内容堆砌程度和/或联系方式数量和/或广告得分和/或低质量词汇得分。
其中,重复内容堆砌程度通过下式计算:
这里,dupscore为重复内容堆砌程度,D为当前UGC数据中重复内容堆砌窗口的个数,N是当前UGC数据中的窗口总数。基于此,本发明可通过设置合适的阈值能够在一定程度上解决由于重复内容堆砌程度而导致的作弊问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110320404.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:延时电路
- 下一篇:一种轮状病毒抗原临界值质控物的配制方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置