[发明专利]一种基于分解聚合的电信诈骗电话的分类检测方法在审

申请号：	201710508428.0	申请日：	2017-06-28
公开（公告）号：	CN107451192A	公开（公告）日：	2017-12-08
发明（设计）人：	万辛;刘冠男;李鹏;安茂波;林浩;吴俊杰;高圣翔;孙晓晨;虞宇琪;郭佳	申请（专利权）人：	国家计算机网络与信息安全管理中心
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	北京永创新实专利事务所11121	代理人：	赵文利
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分解聚合电信诈骗电话分类检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据挖掘，机器学习和商务智能等领域，具体是一种基于分解聚合的电信诈骗电话的分类检测方法。

背景技术

近年来我国电信诈骗案件时有发生，严重威胁到人民的财产安全和社会的稳定。由于通话量巨大，监管部门难以对所有电话进行实时监管与拦截，因此如何利用数据挖掘中的分类、异常检测等方法实现自动化的疑似诈骗电话的检测，对监管部门来说是一个巨大的挑战。

诈骗电话分类检测的实际问题，首先是数据量较大，仅以国际通话端为例，每天的呼叫量在2000万次以上；同时，在原始的数据中，被拦截和标注的诈骗电话样本在全部通话记录中仅占较小的一部分，使得数据类别具有显著的不平衡特点。比如，少量被检出的诈骗电话被标注为正类样本，而其余大部分通话均被标注为负类样本，在目前的国际电话的记录中，正负比例达到了40：1。实际上，这种类别不平衡的现象存在于大量的实际应用场景中，如网络入侵检测，信用卡欺诈检测等有监督的异常检测问题中。

对于兼具大规模和不平衡类别特点的数据来说，难以通过统一的模型进行训练。一方面由于数据量过大，用单一模型需要消耗大量的时间和空间；另一方面由于数据本身的不平衡特点，采用单一模型会对正类样本的分类产生欠拟合(under fitting)的现象。

由于原始数据量较大，即使正负类比例失衡，对于正类比例仍然有大量可供训练的样本。在这种情形下，如何从大量原始数据中进行合理的采样成为在实际的稀有类别的检测中的一个重要问题。此外，目前大部分电信诈骗的检测方法仅侧重于单一指标，例如，仅追求检测的准确率，但是这类方法对于不同类型的诈骗电话缺乏普适性，导致召回率较低。

实际上，由于不同的正负类的训练样本会对检测模型的各种精度同时产生影响，因此需要一种自动确定最优正负类训练样本的方法来在各类指标，如准确率，召回率等之间要做出更加合理的权衡。

发明内容

本发明有鉴于在不平衡类别下的大数据分类的难度和挑战，同时考虑到样本量较大，正类样本也较多的特点，构建了一种基于分解聚合的电信诈骗电话的分类检测方法。

具体步骤如下：

步骤一、收集电信网络中的CDR数据(Call Detail Record，呼叫详细数据)，将被检出的少量诈骗电话记录标注为正类样本，其余的标注为负类样本。

步骤二、设定正负样本比例为X％，对CDR数据进行横向的连续采样划分，反复采样L 次，得到L个正负类比例为X％的样本子集。

采用有放回的随机抽样方式，从CDR数据中抽取正负类样本比例为X％的数据记录。

步骤三、按照等步长的方式依次改变正负类比例，进行A次，共产生A*L个训练子集。

等步长是指任意两个相邻正负类样本比例值之间的差值固定；

步骤四、对CDR数据按照特征属性进行纵向分解，得到F种不同的类别属性子集；

具体而言，CDR数据共有M个特征，随机抽取Y％的属性特征，共计M*Y％个属性特征作为基础分类器的分类特征；通过有放回的随机抽样抽取采样F次，得到F种不同的类别属性子集。

步骤五、原始CDR数据被划分为了A*L*F个训练样本区，每个训练样区同时具有特定正负类比例及特征属性；