[发明专利]样本属性评估模型训练方法、装置及服务器在审
申请号: | 201811015607.1 | 申请日: | 2018-08-31 |
公开(公告)号: | CN109325525A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 王修坤;赵婷婷;刘斌 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 训练样本 模型训练 样本属性 半监督机器学习算法 评估模型 评估 社区 服务器 挖掘 | ||
1.一种样本属性模型训练方法,包括:
确定与训练样本对应的关系图中每个社区的黑样本浓度,其中,所述训练样本包括黑样本和未知样本;
基于所述每个社区的黑样本浓度,确定每个所述未知样本的白样本抽样概率,以每个所述未知样本的白样本抽样概率进行抽样,获得白样本;
基于半监督机器学习算法对所述黑样本与所述白样本进行训练,获得目标样本属性评估模型。
2.根据权利要求1所述的方法,所述确定与训练样本对应的关系图中每个社区的黑样本浓度,包括:
确定每个社区中所有黑样本对应节点在该社区总节点中的第一占比,将所述第一占比作为该社区的黑样本浓度;或
确定每个社区中所有黑样本对应节点在所述关系图中总节点中的第二占比,将所述第一占比作为该社区的黑样本浓度;或
确定每个社区中所有黑样本对应节点在该社区总节点中的第三占比,以及该社区总节点在所述关系图中的总节点中的第四占比,获得所述第三占比与所述第四占比的加权平均值,将所述加权平均值作为该社区的黑样本浓度。
3.根据权利要求1所述的方法,所述基于半监督机器学习算法对所述黑样本与所述白样本进行训练,获得目标样本属性评估模型,包括:
基于半监督机器学习算法对所述黑样本与所述白样本进行训练,获得样本属性评估模型;
判断所述样本属性评估模型是否满足预设收敛条件;
如果否,更新所述每个社区的黑样本浓度,基于更新后的每个社区的黑样本浓度与所述半监督机器学习算法继续训练,直至训练得到的样本属性评估模型满足所述预设收敛条件,将满足所述预设收敛条件的样本属性评估模型作为目标样本属性评估模型。
4.根据权利要求3所述的方法,所述判断所述样本属性评估模型是否满足预设收敛条件,包括:
基于所述样本属性评估模型对每个所述未知样本进行评估,获得每个所述未知样本的本轮属性评估结果,共计获得M个本轮属性评估结果,M为未知样本的个数;
基于所述M个本轮属性评估结果与M个上一轮属性评估结果,判断所述样本属性评估模型是否满足预设收敛条件。
5.根据权利要求4所述的方法,所述基于所述样本属性评估模型对每个所述未知样本进行评估,获得每个所述未知样本的本轮属性评估结果,包括:
基于所述样本属性评估模型对每个所述未知样本进行评估,获得每个所述未知样本的黑样本评分,如果黑样本评分值大于预设分值,将该未知样本的属性信息标记为黑样本,其中,每个所述未知样本的本轮属性评估结果中包括该未知样本的属性信息。
6.根据权利要求5所述的方法,所述基于所述M个本轮属性评估结果与M个上一轮属性评估结果,判断所述样本属性评估模型是否满足预设收敛条件,包括:
判断每个未知样本的本轮属性评估结果中的属性信息与该未知样本的上一轮属性评估结果中的属性信息是否一致,如果是,表明所述本轮样本属性评估模型满足所述预设收敛条件。
7.根据权利要求5所述的方法,所述更新所述每个社区的黑样本浓度,包括:
基于所述M个本轮属性评估结果与M个上一轮属性评估结果,确定属性信息发生变化的未知样本;
重新计算与所述属性信息发生变化的未知样本对应的社区的黑样本浓度。
8.根据权利要求1-7中任一权利要求所述的方法,所述训练样本为申请理赔人员对应的保险数据,所述黑样本为骗保人员对应保险数据。
9.一种样本属性评估方法,包括:
根据权利要求1-7中任一权利要求所述的方法训练得到的目标样本属性评估模型,对新进样本进行评估,确定所述新进样本的评估结果,其中,所述评估结果中包括所述新进样本的黑样本评分和/或属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811015607.1/1.html,转载请声明来源钻瓜专利网。