[发明专利]一种基于大数据和机器学习的电信诈骗上当人发现方法在审
申请号: | 201811353163.2 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109447180A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 高勇;孙志猛;刘善武;李进;孟繁瑞;赵龙斌;蒋维;郝振江;夏光升 | 申请(专利权)人: | 山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;H04M3/22 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 王鸿远 |
地址: | 250000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 被叫 分类器模型 预处理数据 分析对象 机器学习 训练样本 诈骗电话 转换数据 大数据 电信 预警 安全技术领域 场景 电话记录 通讯信息 原始电话 单数据 多维度 特征表 存储 分析 筛选 发现 转换 记录 | ||
1.一种基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,包括以下步骤:
获取原始电话记录单,筛选出其中的诈骗电话事件;
分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;
对预处理数据进行清理,得到待转换数据;
将待转换数据转换成训练样本;
利用训练样本生成分类器模型;
将被叫为分析对象的电话记录单数据代入分类器模型,进行预警。
2.根据权利要求1所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,采用填写空缺值或者光滑噪声数据或者识别删除离群点或者删除重复值或者数据降维中的至少一种方法对预处理数据进行清理。
3.根据权利要求2所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,采用建立数据仓库,并通过平滑聚集或者数据概化或者数据规范化中的至少一种方法将待转换数据转换成训练样本。
4.根据权利要求3所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,利用训练样本生成分类器模型的步骤具体包括以下步骤:
预设数值m,m被用来决定当在一个节点上做决定时,会使用到多少个变量;
从N个训练样本中以可重复取样的方式,取样N次,形成一组训练集;
对于每一个节点,随机选择m个基于此点上的变量,根据这m个变量,计算其最佳的分割方式,以得到分类器模型;
其中,m为小于变量数目的预设数值,N为训练样本的个数。
5.根据权利要求4所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,利用训练样本生成分类器模型的方式为:在训练样本上执行分类器算法,生成分类器模型。
6.根据权利要求5所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,分类器算法为决策树算法。
7.根据权利要求6所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,分析诈骗电话事件中被叫的特征和场景的方式为记录被叫在预设时间段内的行为特征和行为场景以得到多维度特征表。
8.根据权利要求7所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,对预处理数据进行清理之前还包括步骤:对多维度特征表采用随机森林算法进行无监督学习聚类和异常点检测,得到预处理数据。
9.根据权利要求8所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,将被叫为分析对象的电话记录单数据代入分类器模型,进行预警的步骤具体包括以下步骤:
将被叫为分析对象的电话记录单数据代入分类器模型,得到潜在上当人信息;
通过人工监听验证分类器模型,并进行预警。
10.根据权利要求9所述的基于大数据和机器学习的电信诈骗上当人发现方法,其特征在于,进行预警之前还包括步骤:
通过人工监听验证分类器模型,得到完善后的分类器模型;
将潜在上当人的电话记录单数据代入完善后的分类器模型,并进行预警。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司,未经山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811353163.2/1.html,转载请声明来源钻瓜专利网。