[发明专利]一种基于聚类的应用市场刷榜共谋组检测方法有效
申请号: | 201910090202.2 | 申请日: | 2019-01-30 |
公开(公告)号: | CN109919191B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 何道敬;潘梦函;唐宗力 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F18/22 | 分类号: | G06F18/22;G06F18/232;G06Q30/018 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 应用 市场 共谋 检测 方法 | ||
1.一种基于聚类的应用市场刷榜共谋组检测方法,其特征在于,该方法包括以下步骤:
步骤1:从应用市场爬取数据集,通过限制评论者的评论数量来过滤,以得到最后实验需要的评论者集合;即选取评论数量超过某一阈值的这些评论者作为数据集;
步骤2:首先任选数据集中的一个核心点作为初始集合;
步骤3:根据当前核心点的初始参数,即评论者嫌疑分数作为阈值η和评论者间相似度作为阈值∈找出该数据集中的所有核心点;
步骤4:以任一核心点为出发点,找出由其密度可达的样本生成聚类簇,直到所有核心点均被访问过为止;
步骤5:输出簇划分结果,其中簇划分结果包含聚类簇数和簇内每一个数据的详细信息;其中:
所述评论者嫌疑分数RSS由三部分计算分数组成,包括评论者分数、评论嫌疑分数以及应用嫌疑分数;计算公式如下:
其中,i表示评论者,j表示评论,k表示应用;RSS表示评论者嫌疑分数;SRi表示评论者分数;ni表示评论者i所有评论数量,SSj表示评论嫌疑分数,cij表示评论者i的第j个评论;mk表示评论者i所有评论应用数量,SAk表示应用嫌疑分数,tik表示评论者i评论的第k个应用;
所述评论者间相似度即两评论者x和y之间相似度SC(x,y),计算公式如下:
其中,Scar(x,y)表示应用相似度,Scrr(x,y)表示评论相似度,Scard(x,y)表示评分相似度。
2.根据权利要求1所述的基于聚类的应用市场刷榜共谋组检测方法,其特征在于,所述步骤1中数据集的爬取,包括苹果应用市场。
3.根据权利要求1所述的基于聚类的应用市场刷榜共谋组检测方法,其特征在于,所述步骤1中通过爬取所得到的数据集中的数据特征包括:评论者姓名、评论内容、评论分数、评论的应用、评论的应用数量和评论字数。
4.根据权利要求1所述的基于聚类的应用市场刷榜共谋组检测方法,其特征在于,所述核心点由评论者嫌疑分数确定。
5.根据权利要求1所述的基于聚类的应用市场刷榜共谋组检测方法,其特征在于,所述密度可达,其范围要定义ε-领域;对xj∈D,其ε-邻域包含数据集D中与xj的相似度阈值大于∈的对象,即
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910090202.2/1.html,转载请声明来源钻瓜专利网。