[发明专利]一种基于用户评论数据的欺诈应用检测方法及系统在审
申请号: | 202210943412.3 | 申请日: | 2022-08-08 |
公开(公告)号: | CN115292674A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 胡阳雨;邬松骏;杨茜;康诗悦;吴渝;祝清意 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F21/12 | 分类号: | G06F21/12;G06K9/62;G06F16/35;G06F16/33;G06F40/279;G06F40/35 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 评论 数据 欺诈 应用 检测 方法 系统 | ||
1.一种基于用户评论数据的欺诈应用检测方法,其特征在于,该方法包括:构建移动欺诈应用知识库;获取待检测应用的数据,该数据包括应用样本、应用元数据以及用户评论数据;对待检测应用数据进行预处理;采用移动欺诈应用知识库对预处理后的数据进行特征匹配,若匹配成功,则输出检测结果,若匹配失败,则采用分类规则计算用户评论数据与欺诈行为的关联度,并对该评论数据进行类别标记;采用TF-IDF算法对类别标记的评论数据进行关键词提取,根据提取的关键词对待检测应用的数据进行检测,得到检测结果;对检测结果进行特征提取,根据提取的特征对移动欺诈应用知识库进行更新。
2.根据权利要求1所述的一种基于用户评论数据的欺诈应用检测方法,其特征在于,构建移动欺诈应用知识库的过程包括:从已确认为移动欺诈应用中获取该应用的应用内数据和应用元数据,根据该应用的评论提取应用特征;根据应用内数据、应用元数据以及提取的评论数据特征构建移动欺诈应用知识库;所述应用内数据包括应用代码、应用资源文件以及开发者签名,所述应用元数据包括应用描述、应用名以及发布者名。
3.根据权利要求1所述的一种基于用户评论数据的欺诈应用检测方法,其特征在于,对待检测应用数据进行预处理包括:对待测应用数据的用户评论数据进行去停用词以及分词工作。
4.根据权利要求1所述的一种基于用户评论数据的欺诈应用检测方法,其特征在于,采用移动欺诈应用知识库对预处理后的数据进行特征匹配的过程包括:依次将应用评论特征、应用内数据特征以及应用元数据特征与移动欺诈应用知识库中相对应的特征进行对比,得到每个特征的匹配程度,根据匹配程度输出检测结果。
5.根据权利要求1所述的一种基于用户评论数据的欺诈应用检测方法,其特征在于,采用分类规则计算用户评论数据与欺诈行为的关联度的过程包括:
步骤1:构建训练集,构建过程包括获取欺诈应用的用户评论,采用人工标记对应的欺诈行为,将所有的经过标记的用户评论数据进行集合,得到训练集;
步骤2:对训练集中的用户评论数据进行去停用词和分词操作;
步骤3:采用TF-IDF算法对经过去停用词和分词操作后的数据进行关键词排序;遍历排序后的关键词,对排序后的关键词进行筛选,得到关键词集合;
步骤4:根据关键词集合构建分类规则;
步骤5:采用分类规则对待检测应用的用户评论数据进行分类,得到用户评论数据的分类结果;
步骤6:对用户评论数据分类结果进行特征提取,得到欺诈应用评论数据特征。
6.根据权利要求5所述的一种基于用户评论数据的欺诈应用检测方法,其特征在于,得到关键词集合包括:依次遍历关键词,如果关键词对应的评论子集合与已遍历的关键词对应的评论子集合属于包含关系,则将两个关键词放入一个关键词集中,否则将该关键词放入一个新的关键词集中;当之前所有遍历的关键词对应的评论子集合的并集包含全部评论,则停止遍历;将所有选出的关键词进行集合,得到关键词集合。
7.根据权利要求5所述的一种基于用户评论数据的欺诈应用检测方法,其特征在于,构建分类规则包括:通过枚举的方式,分别计算多个关键词在不同的顺序和允许的词语间距条件下,评论分类的准确率和召回率变化情况,并选取表现情况最好的条件作为此关键词集合的限制规则,形成分类规则集。
8.一种基于用户评论数据的欺诈应用检测系统,该系统用于执行权利要求1~8所述的任意一种基于用户评论数据的欺诈应用检测方法,该系统包括:数据获取模块、数据预处理模块、移动欺诈应用知识库、特征匹配模块、评论分类模块、关键词提取模块、结果输出模块以及结果特征提取模块;
所述数据获取模块用于获取待检测的应用数据;
所述数据预处理模块用于对待检测应用数据进行预处理,该预处理包括对待测应用数据的用户评论数据进行去停用词以及分词工作;
所述特征匹配模块用于将预处理后的待检测应用数据与移动欺诈应用知识库中的数据进行匹配,若匹配成功,则将匹配结果输入到结果输出模块中,若匹配不成功,则将预处理后的评论数据输入到评论分类模块中;
所述评论分类模块用于对预处理后的评论数据进行分类,得到分类结果;
所述关键词提取模块用于对分类结果进行关键词提取,得到输出结果;
所述结果特征提取模块用于对输出结果仅特征提取,并将提取的特征输入到移动欺诈应用知识库,对移动欺诈应用知识库中的数据进行更新;
所述结果输出模块用于输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210943412.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置