[发明专利]一种基于深度学习的欺诈应用检测方法有效
申请号: | 201910417277.7 | 申请日: | 2019-05-20 |
公开(公告)号: | CN110223106B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 胡金龙;庄懿;曹丽洁;黄松;董守斌 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 欺诈 应用 检测 方法 | ||
1.一种基于深度学习的欺诈应用检测方法,其特征在于,包括以下步骤:
1)获取移动广告日志数据,对数据进行预处理;
2)从日志数据中提取出结构数据和样本数据;结构数据为日志数据中表示用户、应用和广告之间关联关系的数据,样本数据为每一个应用所对应的日志数据;
3)基于结构数据构建图G,并使用图嵌入的方法获取一个应用的图嵌入特征其中P是应用总数,d为特征维度,确定窗口大小ω进而确定时间窗口数量T,将同一个应用T个时间窗口的一行特征,按时间顺序依次排列,组成一个T行特征构成的二维基本数据单元M为数据单元的列数;图嵌入方法为异构图G的网络表示学习方法;一行特征代表应用在给定的时间窗口内的所有日志数据的统计特征,若该时间窗口内没有记录,则该行特征为全0的向量;
4)将所有应用的T行二维基本数据,依次纵向拼接起来,构成特征矩阵即应用基本属性特征矩阵,将所有应用的一维图嵌入特征按行拼接得到列数为d的应用图嵌入特征矩阵Xs和Xe组成模型的输入特征;输入特征的组成不是两种特征的拼接,而是作为检测模型的两部分特征输入;
5)对训练部分的应用进行人工标注,按照是否为欺诈应用的信息设置每个应用的标签取值;欺诈应用的标签设置为1,非欺诈应用的标签设置为0,得到Ptrain个训练标签数据Ptrain<P与步骤4)中的对应输入特征向量结合构成被试数据;标签与输入特征为一一对应关系,不存在拼接操作;
6)构建混合卷积神经网络,用于检测欺诈应用;
构建的混合卷积神经网络,从输入到输出依次为输入层、第一卷积层、第二卷积层、第一全连接层、第二全连接层以及输出层;所述输入层的输入由两部分组成,分别为应用基本属性特征矩阵Xs和应用图嵌入特征矩阵Xe;
所述第一卷积层提取应用基本属性特征矩阵Xs的抽象特征表示,激活函数为ReLU,dropout的保留概率取值为pc,缺省地,pc的取值为1.0,卷积核为行列数均为h的矩阵滑动步长为s,使用全0填充padding,使用池化操作和批归一化,池化操作的采样核为行列数均为m的矩阵步长为k,第一卷积层的输出是行数为P*h1列数w1为
所述第二卷积层的输入为第一卷积层的输出,激活函数为ReLU,dropout的保留概率取值为pc,缺省地,pc的取值为1.0,卷积核的大小为滑动步长为s,使用全0填充padding,使用池化操作和批归一化,池化操作的采样核为步长为k,第二卷积层的输出是行数为P*h2列数为w2的矩阵
所述第一全连接层的输入由两部分组成:将第二卷积层的输出以应用为单位进行压缩,即按行拼接成一行,得到特征矩阵和应用图嵌入特征矩阵Xe;
所述第一全连接层的输入为两部分特征的拼接,得到特征矩阵
所述第一全连接层为全连接神经网络,节点个数为n1,缺省地,n1取值为100,激活函数为ReLU,dropout的保留概率pf,缺省地,pf取值为0.9;
所述第二全连接层为全连接神经网络,节点个数为n2,缺省地,n2取值为100,激活函数为ReLU,dropout的保留概率pf,缺省地,pf取值为0.9;
所述输出层为单节点,激活函数为Sigmoid,dropout层的保留概率设置为pf,缺省地,pf取值为0.9;
7)将被试数据输入至混合卷积神经网络中进行模型训练,获得混合卷积神经网络的参数,得到用于欺诈应用检测的混合卷积神经网络模型;
8)将待检测的应用输入特征输入至混合卷积神经网络模型中进行欺诈检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910417277.7/1.html,转载请声明来源钻瓜专利网。