[发明专利]一种数据驱动的车险欺诈识别方法在审
申请号: | 202010465117.2 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111612640A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 程文坛;孙伟 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06Q40/08 | 分类号: | G06Q40/08;G06Q10/06;G06N20/00;G06N3/08 |
代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 包姝晴;张静洁 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 驱动 车险 欺诈 识别 方法 | ||
本发明涉及一种数据驱动的车险欺诈识别方法,获取车险理赔历史数据的数据集;对初始的训练数据通过递归特征消除与交叉验证的方式进行特征的选择;采用梯度提升决策树算法对训练数据进行模型训练,将训练生成的模型用于测试数据进行预测;对训练好的模型进行调参,并利用准确率进行评估。本发明运用梯度提升决策树算法建立车险欺诈识别模型,并以此构建车险欺诈识别算法,可以给出具体案例是否疑似欺诈的概率值,还可以让使用者看到理赔的相关重要指标以及包含的重要性,弥补现有技术的不足。
技术领域
本发明涉及用于识别保险欺诈的数据处理技术,特别涉及一种数据驱动的车险欺诈识别方法。
背景技术
随着汽车数量的增加,每年因交通事故造成的财产损失、人员伤亡逐年上升,汽车的增多为人们的生活引入了更多、更大的风险。机动车辆保险为车辆所有者提供了机动车因意外事故造成的车辆财产损失保障的同时,也为因意外事故导致的人身伤亡提供经济给付。然而,机动车辆保险骗赔现象的普遍存在。由于投保人和保险人之间信息的不对称,机动车辆保险的骗赔已经成为机动车辆保险发展的主要障碍。如果具有良好的欺诈检测和预防能力管理系统,保险公司就可以提高客户满意度,减少损失调整费用。目前常用于检测欺诈索赔的方法,是使用自己的指令来分析数据。为此,保险公司的人员需要复杂而耗时的调查,并且要处理不同的知识领域,而指令设置、数据分析等的效率和准确率仍有待提升。
发明内容
本发明的目的在于提供一种数据驱动的车险欺诈识别方法,从历史车险理赔数据集出发,运用梯度提升决策树算法建立车险欺诈模型,实现车辆保险欺诈识别。
为了达到上述目的,本发明的技术方案是提供一种数据驱动的车险欺诈识别方法:对来自于车险理赔历史数据的数据集,运用梯度提升决策树算法建立车险欺诈识别模型,进而构建车险欺诈识别算法;
其中,对初始的训练数据,通过递归特征消除与交叉验证的方式进行特征的选择,采用的基模型为决策树,使用信息熵来进行特征的选择和划分;
采用梯度提升决策树算法对训练数据进行模型训练,并且将训练生成的模型用于测试数据进行预测;
对训练好的模型进行调参,包含对梯度提升决策树算法的分类器的步长、迭代次数、决策树最大深度、内部节点再划分所需最小样本数、叶子节点最少样本数进行调参,用调整后的参数拟合数据;利用准确率对模型预测的结果进行评估。
示例地,来自于车险理赔历史数据的数据集中,每一条原始数据包含了多个数据项以及是否为欺诈的认定。
示例地,对数据集进行预处理,包含:删除无用的数据项,对数据集进行划分,得到初始的数据表;对缺失值进行填补,对时间数据进行序列化处理。
示例地,对类别型变量无法直接处理的数据项,采用one-hot编码方式进行编码。
示例地,采用Z-score标准化,将数据转换到均值为0,标准差为1的分布中。
示例地,特征提取时,通过coef_属性或者feature_importances_属性来提供特征重要性的信息。
示例地,在调参时,选择一个较小的步长来网格搜索最好的迭代次数;
对决策树最大深度、内部节点再划分所需最小样本数进行网格搜索;
确定决策树深度;
将内部节点再划分所需最小样本数、叶子节点最少样本数一起调参;
将调整的参数放到GBDT类里面,用调整好的参数拟合数据。
示例地,对模型预测的结果做评估时,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010465117.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:炸药在脉冲磁场中的性能测试方法
- 下一篇:一种运维数据处理的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置