[发明专利]一种诈骗电话动态识别区间构建方法有效
申请号: | 202110073654.7 | 申请日: | 2021-01-20 |
公开(公告)号: | CN113163057B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 林绍福;常晴晴;刘希亮 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H04M3/22 | 分类号: | H04M3/22;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 诈骗 电话 动态 识别 区间 构建 方法 | ||
本发明公开了一种诈骗电话动态识别区间构建方法。本发明创新提出了超参数优化和梯度提升机相结合的方式构建诈骗电话识别模型,利用超参数优化算法对梯度提升机的参数进行优化,提升模型识别效果。本发明使用随机森林算法进行数据特征选择,选取特征重要度大于0.8的维度构建诈骗电话特征向量。用户话单数据是典型的不平衡数据,本发明提出使用欠采样与过采样相结合混合采样的方法对数据进行采样,缓解了数据分布的不平衡,经过实验验证是一种可行的方法。本发明提出了一种基于概率预测模型的参数化方法,以分类器输出的概率作为样本的置信度,根据模型输出的样本置信度,构建诈骗电话动态识别区间。
技术领域
本发明涉及互联网通信领域、人工智能领域,是一种诈骗电话动态识别区间构建方法,可应用于电信反欺诈领域。
背景技术
诈骗电话严重扰乱了正常通信秩序,妨害公民通信自由,干扰人民群众正常工作生活,已成为当今社会一个严重的问题。如何有效识别和拦截诈骗电话在电信反欺诈机制中起着重要作用,引起了学术界、工业界和政府资助机构的广泛关注。
相关技术中,利用众包标注的方法进行诈骗电话识别是较常用的方法,但是众包标注成本高,效率低下。随着人工智能技术得飞速发展,在相关技术中,也利用机器学习方法构建诈骗电话识别模型,但是大多数研究者只用模型输出的正确率评价模型的好坏,然而对于诈骗电话话单数据这种典型的不平衡数据集,模型识别存在较大偏差,正确率并不能准确反映模型的识别效果。因此,本发明基于多种评价指标的机器学习算法,提出一种诈骗电话动态识别区间。
发明内容
本发明的目的在于提供了一种诈骗电话识别动态区间构建方法,旨在解决电信领域反欺诈场景中诈骗电话识别准确率不高的问题,即电信运营商可运用该模型完成诈骗电话识别并采取相应的控制措施,减少用户损失,提高用户体验。将用户话单日志数据作为模型输入,经过模型分析判别,输出每条用户话单日志数据为诈骗电话的置信度,根据置信度与诈骗电话动态区间的上下界阙值,判断该样本是否为可疑诈骗电话,为运营商进行用户分析和管理提供了重要参考。
一种诈骗电话动态识别区间构建方法,其特征在于,包括如下步骤,
步骤1:提出了基于随机森林进行诈骗电话用户话单数据进行特征提取的方法;
步骤2:根据步骤1处理的数据,利用混合采样方法对数据进行再平衡处理,减少由于数据不平衡分布对模型带来的影响;
步骤3:根据诈骗电话用户话单数据的特点,构建诈骗电话识别模型,并用多种评价指标衡量模型识别效果;
步骤4:根据步骤3,利用诈骗电话识别模型判读数据样本为诈骗电话的概率,构建诈骗电话动态识别区间。
1、本发明利用随机森林诈骗电话用户话单数据特征提取方法,计算数据集中每个维度特征的信息增益,根据信息增益构建每棵树的节点分裂,最后计算每个维度数据的得分。用原始诈骗电话用户话单数据作为输入,本发明使用VIM表示变量的重要性度量,GI表示基尼指数。
具有n个示例的训练数据集S定义为:
S={si},i=1,2,...,n (1)
其中si表示样本集中任意一个样本点,n表示该样本集中包含n个样本点,si的定义如式2所示。
si=(xi,yi),i=1,2,...,n (2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110073654.7/2.html,转载请声明来源钻瓜专利网。