[发明专利]一种SHAP的优化方法、设备及介质有效
申请号: | 202110994859.9 | 申请日: | 2021-08-27 |
公开(公告)号: | CN113723618B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 张燕;杨一帆;唐剑飞 | 申请(专利权)人: | 南京星环智能科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 马迪 |
地址: | 210004 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 shap 优化 方法 设备 介质 | ||
1.一种沙普利可加性模型解释方法SHAP的优化方法,其特征在于,包括:
基于第一目标计算方式计算SHAP基准值;
根据采样样本数量生成掩码权重值;
基于第二目标计算方式对训练样本集进行压缩处理,得到训练压缩样本;
根据所述训练压缩样本和待解释样本生成采样样本;
基于第三目标计算方式计算所述采样样本的模型预测结果;
基于第四目标计算方式根据所述SHAP基准值、所述掩码权重值以及所述采样样本的模型预测结果确定SHAP结果值;
所述基于第一目标计算方式计算SHAP基准值,包括:
获取第一计算方式评估阈值;
根据单个训练样本的数据量、单个所述训练样本的推理预测时间、所述训练样本集中所述训练样本的数量、数据在节点间的传输速度以及节点数量计算第一计算方式评估值;
在所述第一计算方式评估值大于所述第一计算方式评估阈值的情况下,将分布式计算方式确定为所述第一目标计算方式,并基于所述分布式计算方式计算SHAP基准值;
在所述第一计算方式评估值小于等于所述第一计算方式评估阈值的情况下,将单机计算方式确定为所述第一目标计算方式,并基于所述单机计算方式计算SHAP基准值。
2.根据权利要求1所述的方法,其特征在于,所述基于所述分布式计算方式计算SHAP基准值,包括:
将所述训练样本集划分为多个训练样本子集;
计算各所述训练样本子集的模型预测结果;
根据各所述训练样本子集的模型预测结果确定所述SHAP基准值。
3.根据权利要求1所述的方法,其特征在于,所述根据采样样本数量生成掩码权重值,包括:
根据预设置信度数据或所述待解释样本的特征维度数据计算所述采样样本数量;
生成所述采样样本数量的掩码,并根据所述掩码和所述待解释样本的特征维度数据生成所述掩码权重值。
4.根据权利要求1所述的方法,其特征在于,所述基于第二目标计算方式对训练样本集进行压缩处理,得到训练压缩样本,包括:
获取第二计算方式评估阈值;
根据预设压缩样本数量、单个训练样本的压缩时间、单个所述采样样本的生成时间、在分布式计算方式下目标数量数据的洗牌耗时、所述训练样本集中所述训练样本的数量以及节点数量计算第二计算方式评估值;
在所述第二计算方式评估值大于所述第二计算方式评估阈值的情况下,将分布式计算方式确定为所述第二目标计算方式,并基于所述分布式计算方式对所述训练样本集进行压缩处理;
在所述第二计算方式评估值小于等于所述第二计算方式评估阈值的情况下,将单机计算方式确定为所述第二目标计算方式,并基于所述单机计算方式对所述训练样本集进行压缩处理。
5.根据权利要求1-4任一所述的方法,其特征在于,所述对训练样本集进行压缩处理,包括:
对所述训练样本集中的训练样本进行聚类处理,得到至少一个训练样本聚类;
对各所述训练样本聚类进行抽样;
根据各所述训练样本聚类的抽样样本生成所述训练压缩样本。
6.根据权利要求1所述的方法,其特征在于,所述基于第三目标计算方式计算所述采样样本的模型预测结果,包括:
在所述第一计算方式评估值大于所述第一计算方式评估阈值的情况下,将分布式计算方式确定为所述第三目标计算方式,并基于所述分布式计算方式计算所述采样样本的模型预测结果;
在所述第一计算方式评估值小于等于所述第一计算方式评估阈值的情况下,将单机计算方式确定为所述第三目标计算方式,并基于所述单机计算方式计算所述采样样本的模型预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京星环智能科技有限公司,未经南京星环智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110994859.9/1.html,转载请声明来源钻瓜专利网。