[发明专利]一种诈骗电话动态识别区间构建方法有效
申请号: | 202110073654.7 | 申请日: | 2021-01-20 |
公开(公告)号: | CN113163057B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 林绍福;常晴晴;刘希亮 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H04M3/22 | 分类号: | H04M3/22;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 诈骗 电话 动态 识别 区间 构建 方法 | ||
1.一种诈骗电话动态识别区间构建方法,其特征在于,包括如下步骤,
步骤1:基于随机森林进行诈骗电话用户话单数据的特征提取;
步骤2:根据步骤1处理的数据,利用混合采样方法对数据进行再平衡处理,减少由于数据不平衡分布对模型带来的影响;
步骤3:根据诈骗电话用户话单数据的特点,构建诈骗电话识别模型,并用多种评价指标衡量模型识别效果;
步骤4:根据步骤3,利用诈骗电话识别模型判读数据样本为诈骗电话的概率,构建诈骗电话动态识别区间;
其中步骤1具体为:计算数据集中每个维度特征的信息增益,根据信息增益构建每棵树的节点分裂,最后计算每个维度数据的得分;用原始诈骗电话用户话单数据作为输入,使用VIM表示变量的重要性度量,GI表示基尼指数;
具有n个示例的训练数据集S定义为:
S={si},i=1,2,...,n (1)
其中si表示样本集中任意一个样本点,n表示该样本集中包含n个样本点,si的定义如式2所示;
si=(xi,yi),i=1,2,...,n (2)
其中,xi={v1,v2,...,vw}表示是一个实例,vj表示是xi样本的特征,yi={1,2,...,C}表示相对应的xi的标签,数据分为正常电话用户话单数据和诈骗电话用户话单数据即C=2;
使用的数据维度为数据脱敏手机号v1、被呼叫的手机号v2、通话频率v3、成功连接的比率v4、平均通话持续时间v5、铃声的平均持续时间v6、呼叫类型v7、呼叫时间v8、呼叫持续时间v9、被挂断电话的比率v10、手机的状况v11、通话时间v12字段;即w=12;
GI基尼指数定义为:
其中,K表示K个类别,pmk表示类别k在节点m中所占的比例,pmk'表示类别不为k的节点m所占的比例;
VIM特征重要性定义为:
其中,GIleft和GIright分别表示m节点的左右两个新分支节点的GI索引;
最后,标准化所有特征重要性度量;对于任意一个诈骗电话特征vi,其特征重要性为VIMi,这期重要度的标准化计算公式如式(5)所示;
其中,∑VIM表示12个特征的特征重要度之和;根据特征重要性对数据进行排序,选出得分大于0.8的前9个特征构建数据的特征向量,得到新的可用于后续实验的诈骗电话用户话单数据集。
2.根据权利要求1所述方法,其特征在于,利用混合采样方法对数据进行再平衡处理,具体为:根据正常电话与诈骗电话样本不平衡比例设置采样比率r,设正常电话样本数量为p,诈骗电话样本数量为q,则选取其中一个样本点si,利用欧氏距离计算si到它附近的少数类样本点的距离,得到其r近邻;对于每个少数类诈骗电话样本sc,从其r个最近邻样本中随机抽取若干样本其中r∈{1,2,3,...a},表示样本sc周围除了sc以外的其他样本点,对每一个选取的近邻样本与原始样本按照snew=sc+rand(0,1)×(sc'-sc)合成新样本snew,其中rand(0,1)是生成0到1之间的随机数函数,sc'表示每一个随机选出的近邻样本;将新合成的样本snew加入到原来的数据集中,形成新的样本集。
3.根据权利要求1所述方法,其特征在于,步骤4具体为:
步骤4.1:输入新的样本集;
步骤4.2:对步骤4.1得到的数据随机分,一部分份用于训练模型,另一部分用于测试模型;
步骤4.3:用基于随机森林的超参优化算法不断优化模型,当模型在训练集和测试集上的准确率,召回率,F1值和AUC值多个评价指标均大于0.9时为止,其中准确率Precision是指预测为诈骗电话的样本中,原本就是诈骗电话的比例,召回率Recall是指原本为诈骗电话的样本中,预测为诈骗电话的比例;F1是调和准确率和召回率的一个新的评价指标F-measure简称F1,AUC是指ROC曲线下的面积,ROC曲线是根据算法预测的结果中,原本是正常电话的样本被预测为诈骗电话的比率与原本是诈骗电话被预测为诈骗电话的比率做出的曲线;
步骤4.4:利用步骤4.2,4.3训练好的模型输出训练样本的置信度y;
步骤4.5:绘制出样本散点图,分析每个样本置信度与样本真实标签的异同,得到诈骗电话识别动态区间0≤αβ≤1,其中α=0.2,β=0.8;当模型输出结果0≤y≤α时,该样本为正常电话;当模型输出结果αyβ时,该样本为可疑电话;当模型输出结果βy≤1时,该样本为诈骗电话。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110073654.7/1.html,转载请声明来源钻瓜专利网。