[发明专利]一种基于大数据和机器学习的电信诈骗上当人发现方法在审

专利信息
申请号: 201811353163.2 申请日: 2018-11-14
公开(公告)号: CN109447180A 公开(公告)日: 2019-03-08
发明(设计)人: 高勇;孙志猛;刘善武;李进;孟繁瑞;赵龙斌;蒋维;郝振江;夏光升 申请(专利权)人: 山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N3/00;H04M3/22
代理公司: 北京力量专利代理事务所(特殊普通合伙) 11504 代理人: 王鸿远
地址: 250000 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 被叫 分类器模型 预处理数据 分析对象 机器学习 训练样本 诈骗电话 转换数据 大数据 电信 预警 安全技术领域 场景 电话记录 通讯信息 原始电话 单数据 多维度 特征表 存储 分析 筛选 发现 转换 记录
【说明书】:

发明涉及通讯信息安全技术领域,尤其涉及一种基于大数据和机器学习的电信诈骗上当人发现方法。该方法包括以下步骤:获取原始电话记录单,筛选出其中的诈骗电话事件;分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;对预处理数据进行清理,得到待转换数据;将待转换数据转换成训练样本;利用训练样本生成分类器模型;将被叫为分析对象的电话记录单数据代入分类器模型,进行预警。本发明在分析被叫的特征和场景的基础上建立分类器模型,对被叫为分析对象的电话进行电信诈骗预警,具有准确、有效的优点。

技术领域

本发明涉及通讯信息安全技术领域,尤其涉及一种基于大数据和机器学习的电信诈骗上当人发现方法。

背景技术

机器学习包括无监督学习和监督学习,其中随机森林是一种重要的基于Bagging(是一种用来提高学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数)的集成学习方法,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定,可以用来做分类、回归及聚类等问题,优点是:具有极高的准确率;由于随机性的引入,使得随机森林不容易过拟合,且具有很好的抗噪声能力;能够用来处理很高维的数据,并且不用做特征选择;随机森林算法既能够用来处理离散型数据,也能用来处理连续性数据,无须规范化;训练速度很快,可以得到变量重要性排序,容易实现并行化。但是随机森林算法也有缺点:当其中的决策树个数很多的时候,训练需要的时间空间较大;且可解释性较弱。随机森林的构建过程如下:

从原始训练集中使用Bootstraping方法(指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本),随机有放回采样选出m个样本,共进行n_tree次采样,生成n_tree个训练集;对于n_tree个训练集,我们分别训练n_tree个决策树模型;对于单个决策树模型,假设训练样本特征的个数为n,那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂;每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝;将生成的多棵决策树组成随机森林。对于分类问题,按多棵树分类器投票决定最终分类结果;对于回归问题,由多棵树预测值的均值决定最终预测结果。

目前已有一种基于大数据和机器学习的防范电信诈骗系统及方法,该方法是在接收到短信消息或者来电消息的时候通过预定的约束规则针对当前的电信数据进行诈骗检测判定,采用机器学习算法检测是否为电信诈骗,如果检测结果判定为电信诈骗,则将该诈骗数据信息上传到大数据分析端;也有一种诈骗电话号码的分析方法,其采用随机森林算法建立不同类型的诈骗电话检测模型,周期性地对诈骗电话号码分类模型进行离线的训练,然后在现网中进行准实时的检测判定,从大量话单信息中甄别出诈骗电话事件和号码;也有一种基于深度学习的电信诈骗识别与防御系统,将深度学习技术与国密算法相结合,采取来电监听与语音识别等技术,来识别诈骗电话。

上述已有方法在电信诈骗识别与防范方面各有侧重,但以上方法均是针对诈骗方进行的识别和预防,对于潜在的被诈骗人方面没有预防措施,不能提前做到防止潜在被诈骗人上当受骗。

因此,急需一种基于大数据和机器学习的电信诈骗上当人发现方法。

发明内容

本发明提供了一种基于大数据和机器学习的电信诈骗上当人发现方法,以便于使用随机森林算法与关联规则算法,在大数据平台上根据原始话单数据分析发现上当人,找出规律,挖掘潜在上当人。

本发明提供了一种基于大数据和机器学习的电信诈骗上当人发现方法,包括以下步骤:

获取原始电话记录单,筛选出其中的诈骗电话事件;

分析诈骗电话事件中被叫的特征和场景以得到多维度特征表,并作为预处理数据进行存储;

对预处理数据进行清理,得到待转换数据;

将待转换数据转换成训练样本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司,未经山东省通信管理局;国家计算机网络与信息安全管理中心山东分中心;天津市国瑞数码安全系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811353163.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top