[发明专利]一种数据驱动的车险欺诈识别方法在审
申请号: | 202010465117.2 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111612640A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 程文坛;孙伟 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06Q40/08 | 分类号: | G06Q40/08;G06Q10/06;G06N20/00;G06N3/08 |
代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 包姝晴;张静洁 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 驱动 车险 欺诈 识别 方法 | ||
1.一种数据驱动的车险欺诈识别方法,其特征在于,
对来自于车险理赔历史数据的数据集,运用梯度提升决策树算法建立车险欺诈识别模型,进而构建车险欺诈识别算法;
其中,对初始的训练数据,通过递归特征消除与交叉验证的方式进行特征的选择,采用的基模型为决策树,使用信息熵来进行特征的选择和划分;
采用梯度提升决策树算法对训练数据进行模型训练,并且将训练生成的模型用于测试数据进行预测;
对训练好的模型进行调参,包含对梯度提升决策树算法的分类器的步长、迭代次数、决策树最大深度、内部节点再划分所需最小样本数、叶子节点最少样本数进行调参,用调整后的参数拟合数据;利用准确率对模型预测的结果进行评估。
2.如权利要求1所述数据驱动的车险欺诈识别方法,其特征在于,
来自于车险理赔历史数据的数据集中,每一条原始数据包含了多个数据项以及是否为欺诈的认定。
3.如权利要求1所述数据驱动的车险欺诈识别方法,其特征在于,
对数据集进行预处理,包含:删除无用的数据项,对数据集进行划分,得到初始的数据表;对缺失值进行填补,对时间数据进行序列化处理。
4.如权利要求3所述数据驱动的车险欺诈识别方法,其特征在于,
对类别型变量无法直接处理的数据项,采用one-hot编码方式进行编码。
5.如权利要求4所述数据驱动的车险欺诈识别方法,其特征在于,
采用Z-score标准化,将数据转换到均值为0,标准差为1的分布中。
6.如权利要求1所述数据驱动的车险欺诈识别方法,其特征在于,
特征提取时,通过coef_属性或者feature_importances_属性来提供特征重要性的信息。
7.如权利要求1所述数据驱动的车险欺诈识别方法,其特征在于,
调参时,选择一个较小的步长来网格搜索最好的迭代次数;
对决策树最大深度、内部节点再划分所需最小样本数进行网格搜索;
确定决策树深度;
将内部节点再划分所需最小样本数、叶子节点最少样本数一起调参;
将调整的参数放到GBDT类里面,用调整好的参数拟合数据。
8.如权利要求1所述数据驱动的车险欺诈识别方法,其特征在于,
对模型预测的结果做评估时,准确率=(TP+TN)/(TP+FN+FP+TN);
其中TP、FN分别为真实类别为正类,预测结果为正类、负类的数目;FP、TN分别为真实类别为负类,预测结果为正类、负类的数目。
9.如权利要求1所述数据驱动的车险欺诈识别方法,其特征在于,
车险欺诈识别算法的输入是车险理赔信息,该算法辨识车险理赔是否存在欺诈,以概率形式输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010465117.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:炸药在脉冲磁场中的性能测试方法
- 下一篇:一种运维数据处理的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置