[发明专利]模型解释方法、装置、电子设备及存储介质在审
申请号: | 202210282784.6 | 申请日: | 2022-03-22 |
公开(公告)号: | CN114625657A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 陆凯 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 赵伟杰 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 解释 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供了一种模型解释方法、装置、电子设备及存储介质。该方法包括:获取预先训练好的黑盒模型、目标任务场景的样本集合和待解释的目标样本;将所述样本集合输入至所述黑盒模型中,得到特征分布信息;对所述目标样本输入至所述黑盒模型进行模型预测,得到模型预测分数;遍历所述目标样本中每个维度的特征;根据所述特征分布信息计算每个维度所述特征对应的加权平均分;根据所述加权平均分与所述模型预测分数的差异值,确定每个维度所述特征在所述目标样本的重要程度;根据所述重要程度对所述黑盒模型基于所述目标样本的模型进行解释。本申请能够帮助工程师解释模型在具体样本的行为来做特征显著性分析。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型解释方法、装置、电子设备及存储介质。
背景技术
在风控场景下,尤其是当模型预测结果用于客户行为拦截、警告等功能时,当模型发出错误的拦截、警告信号时不仅无法起到控制风险的作用,反而会极大影响客户体验,由此可知,风控场景对模型可解释性要求很高。因此,风控场景的工程师往往需要对模型做出解释,如果无法解释模型,模型的效果容易收到前线业务的质疑,这也使得工程师取选择可解释性高的模型。
相关技术中,模型的可解释性和性能之间往往存在冲突。可解释性高的模型往往效果较差,如逻辑回归、单个决策树,具有较好的可解释性,而效果较差。而一些效果较好的模型,如神经网络、gbdt(多颗决策树集成),这些模型本身难以解释单个样本的行为。面对可解释性和性能之间的冲突,风控工程师往往退而求其次,选择高可解释性效果较差的模型。因此,如何帮助工程师解释模型在具体样本的行为来做特征显著性分析成为本领域亟需解决的技术问题。
发明内容
本申请实施例的主要目的在于提出一种模型解释方法、装置、电子设备及存储介质,能够帮助工程师解释模型在具体样本的行为来做特征显著性分析。
为实现上述目的,本申请实施例的第一方面提出了一种模型解释方法,所述方法包括:
获取预先训练好的黑盒模型、目标任务场景的样本集合和待解释的目标样本;
将所述样本集合输入至所述黑盒模型中,得到特征分布信息;
对所述目标样本输入至所述黑盒模型进行模型预测,得到模型预测分数;
遍历所述目标样本中每个维度的特征,根据所述特征分布信息计算每个维度所述特征对应的加权平均分;
根据所述加权平均分与所述模型预测分数的差异值,确定每个维度所述特征在所述目标样本的重要程度;
根据所述特征的重要程度对所述黑盒模型基于所述目标样本的模型进行解释。
在一些实施例,所述特征分布信息包括有所述样本集合中每个维度所述特征对应的特征值以及所述特征值在所述样本集合中的占比。
在一些实施例,所述根据所述特征分布信息计算每个维度所述特征对应的加权平均分,包括:
将所述目标样本中每个维度所述特征替换为所述样本集合中同一维度的特征对应的特征值,得到新样本;
通过所述黑盒模型对所述新样本进行模型评分,得到模型评分分数;
根据所述模型评分分数和所述特征值在所述样本集合中的占比,得到所述目标样本中每个维度所述特征对应的加权平均分。
在一些实施例,根据所述加权平均分与所述模型预测分数的差异值,确定每个维度所述特征在所述目标样本的重要程度,包括:
计算每个维度所述特征对应的所述加权平均分与所述模型预测分数之差,得到第一差异值;
计算全部维度所述特征对应的所述加权平均分与所述模型预测分数之差,得到第二差异值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210282784.6/2.html,转载请声明来源钻瓜专利网。