[发明专利]一种基于聚类的应用市场刷榜共谋组检测方法有效

专利信息
申请号: 201910090202.2 申请日: 2019-01-30
公开(公告)号: CN109919191B 公开(公告)日: 2023-05-02
发明(设计)人: 何道敬;潘梦函;唐宗力 申请(专利权)人: 华东师范大学
主分类号: G06F18/22 分类号: G06F18/22;G06F18/232;G06Q30/018
代理公司: 上海蓝迪专利商标事务所(普通合伙) 31215 代理人: 徐筱梅;张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 应用 市场 共谋 检测 方法
【说明书】:

发明公开了一种基于聚类的应用市场刷榜共谋组检测方法,具体实现步骤为:爬取数据集;初始化核心点集合;确定评论者嫌疑分数阈值;从任一核心点出发找出密度可达的样本生成聚类簇,直到所有核心点均被访问为止;输出簇划分结果。本发明公开的基于聚类的应用市场刷榜共谋组检测方法,该算法充分体现共谋组组内成员相似的特点,获得了更好的聚类效果,且解决了传统聚类算法在应用市场中参数设置困难的问题。

技术领域

本发明涉及一种刷榜共谋组检测方法,具体的来说,即一种基于聚类的应用市场刷榜共谋组检测方法。

背景技术

随着智能手机的快速发展,手机应用的数量以惊人的速度增长,手机应用市场为用户下载移动应用提供一种方便且有效的方式。若一个应用在应用市场中发布的排名越高,意味着该应用具有更高的曝光率,则开发者更有可能获得巨大的利润。于是在移动应用市场,衍生出了一种新型的营销手段——早在电子商务的领域,随着淘宝天猫的火爆,店铺刷单就成为商家作假造势的一种营销手段——应用刷榜。攻击者使用刷榜的手段去推广他们在应用市场中的移动应用以谋求更大的利润,刷榜者同淘宝刷单员一样,多以团体或者小组的形式工作,故又称为刷榜共谋组,由刷榜公司统一管理。组内成员可以模仿正常用户的行为,躲避应用市场中的检测算法,给刷榜共谋组和刷榜者的检测带来挑战。因此,如何快速有效的检测应用市场中的刷榜共谋组是一件亟待解决的事情,对于维护应用市场的生态平衡,加速应用软件开发者在圈内的竞争和创新具有重要意义。

目前,电子商务领域存在有检测垃圾评论共谋组的方式,大多采用有监督的机器学习方法,但是其特征之一是严重依赖于有标记的数据集来训练分类器。然而模型训练需要大量带有标记的样本,而这类样本获取困难且成本太高,缺少足够标记样本训练的该方法又被证明不够准确。与此同时,在应用市场领域刷榜共谋组检测相对较少,Xie Z等人通过分析评论者与评论者以及评论者与应用之间的关系,然后建立关系图进行检测;Chen H等人利用频繁项集挖掘(FIM)技术生成候选刷榜共谋组,然后通过构建评论者对应用评分的模型以将其刷榜共谋组检测出来。但是此类方法只能找到密集的刷榜共谋组,并且其中每个组成员必须评论所有目标应用。因此,本发明提出的一种基于聚类的刷榜共谋组检测方法,能够充分利用共谋组组内成员相似的特点,获得了更好的聚类效果,解决了传统聚类算法在应用市场中参数设置困难的问题。

发明内容

本发明的目的旨在针对现有应用市场刷榜共谋组检测在参数设置方面的问题,提出了一种基于聚类的应用市场刷榜共谋组检测方法,该检测方法采用基于原始DBSCAN算法改进后的S-DBSCAN算法,将算法中核心点的确定由依靠MinPts的个数,转变为依赖当前数据点的评论者嫌疑分数决定。简单的来说,核心点由评论者嫌疑分数确定,邻域的半径由评论者间相似度确定。该算法不仅解决了事前指定MinPts和Eps参数困难的问题,同时实验表明S-DBSCAN算法相比直接使用DBSCAN算法获得了更好的聚类效果。

实现本发明目的的具体技术方案是:

一种基于聚类的应用市场刷榜共谋组检测方法,该方法包括以下步骤:

步骤1:从应用市场爬取数据集,通过限制评论者的评论数量来过滤,以得到最后实验需要的评论者集合;即选取评论数量超过某一阈值的这些评论者作为数据集;

步骤2:首先任选数据集中的一个核心点作为初始集合;

步骤3:根据当前数据点的初始参数,即评论者嫌疑分数作为阈值η和评论者间相似度作为阈值∈找出该数据集中的所有核心点;

步骤4:以任一核心点为出发点,找出由其密度可达的样本生成聚类簇,直到所有核心点均被访问过为止;

步骤5:输出簇划分结果,其中簇划分结果包含聚类簇数和簇内每一个数据的详细信息。

所述步骤1中数据集的爬取,包括但不限于苹果应用市场。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910090202.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top