[发明专利]一种数据风险预测方法、装置及设备在审
申请号: | 201811587677.4 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109903166A | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 王修坤 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06Q40/08 | 分类号: | G06Q40/08;G06K9/62 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 杨移 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本集合 风险预测 样本 装置及设备 特征集合 保险数据 特征提取 | ||
1.一种数据风险预测方法,包括:
获取已知黑样本集合;
根据所述已知黑样本集合从未知样本中识别出第一黑样本集合,得到第二黑样本集合;所述第二黑样本集合包括所述已知黑样本集合中的黑样本以及所述第一黑样本集合中的黑样本;所述第一黑样本集合中包括至少一个第一黑样本;
对所述第二黑样本集合进行特征提取,得到第一特征集合;
根据所述第一特征集合得到风险预测模型;
利用所述风险预测模型对另外的保险数据进行风险预测。
2.如权利要求1所述的方法,根据所述已知黑样本集合从未知样本中识别出第一黑样本集合,得到第二黑样本集合,具体包括:
根据所述已知黑样本集合对所述未知样本采用图聚类算法进行聚类,得到第一黑样本集合。
3.如权利要求1所述的方法,所述对所述第二黑样本集合进行特征提取,得到第一特征集合,具体包括:
利用所述第二黑样本集合作为样本数据进行自学习,得到第一特征集合;所述第一特征集合中的样本特征为所述已知黑样本集合以及所述第一黑样本集合共有的特征。
4.如权利要求1所述的方法,所述风险预测模型为二元分类模型,所述利用所述风险预测模型对另外的保险数据进行风险预测,具体包括:
将所述保险数据输入二分类预测模型中,得到风险预测结果。
5.如权利要求1所述的方法,所述根据所述第一特征集合得到风险预测模型,之后还包括:
利用训练后的风险预测模型对所述未知样本进行识别,得到第三黑样本集合;
判断所述第三黑样本集合与所述第一黑样本集合相比是否存在第四黑样本,若不存在,结束模型训练过程;所述第四黑样本存在于所述第三黑样本集合中但不存在于所述第一黑样本集合中;
若存在,确定出至少一个第四黑样本,组成第四黑样本集合;所述第四黑样本集合包括所述第二黑样本集合中的黑样本以及至少一个第四黑样本;
利用所述第四黑样本集合作为样本数据进行自学习,得到第二特征集合;
根据所述第二特征集合对所述风险预测模型进行训练,直至训练后的预测模型从所述未知样本中识别不到另外的黑样本为止。
6.如权利要求5所述的方法,所述判断所述第三黑样本与所述第一黑样本相比是否存在第四黑样本,具体包括:
利用所述第三黑样本集合中的各个样本分别与所述第一黑样本中的样本进行比较,若所述第三黑样本中的各个样本均与所述第一黑样本中的元素相同,则确定所述第三黑样本集合中不存在所述第四黑样本;否则,确定所述第三黑样本集合中存在所述第四黑样本。
7.一种数据风险预测装置,包括:
已知黑样本获取模块,用于获取已知黑样本集合;
第一黑样本识别模块,用于根据所述已知黑样本集合从未知样本中识别出第一黑样本集合,得到第二黑样本集合;所述第二黑样本集合包括所述已知黑样本集合中的黑样本以及所述第一黑样本集合中的黑样本;所述第一黑样本集合中包括至少一个第一黑样本;
第一特征确定模块,用于对所述第二黑样本集合进行特征提取,得到第一特征集合;
风险预测模型确定模块,用于根据所述第一特征集合得到风险预测模型;
风险预测模块,用于利用所述风险预测模型对另外的保险数据进行风险预测。
8.如权利要求7所述的装置,所述第一黑样本识别模块,具体包括:
聚类单元,用于根据所述已知黑样本集合对所述未知样本采用图聚类算法进行聚类,得到第一黑样本集合。
9.如权利要求7所述的装置,所述第一特征确定模块,具体包括:
自学习单元,用于利用所述第二黑样本集合作为样本数据进行自学习,得到第一特征集合;所述第一特征集合中的样本特征为所述已知黑样本集合以及所述第一黑样本集合共有的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811587677.4/1.html,转载请声明来源钻瓜专利网。