[发明专利]一种机器学习有监督模型解释方法、系统及设备有效
申请号: | 202011305758.8 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112101574B | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 杨艾森;段函言;熊靖汶;陈文 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 成都天嘉专利事务所(普通合伙) 51211 | 代理人: | 康拯通 |
地址: | 610000 四川省成都市武侯区中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 学习 监督 模型 解释 方法 系统 设备 | ||
1.一种机器学习有监督模型解释方法,其特征在于,包括以下步骤:
步骤1,将包括若干数值和非数值型特征的数据输入到训练好的、给定有监督的机器学习模型中,并得到机器学习的输出结果;
步骤2,对步骤1中得到的输出结果相同的数据进行层次聚类,将输入的数据聚成若干个簇,每个簇中包含有若干样本,样本中均包含若干数值和非数值型特征,层次聚类的类别数量,按照设定的类别内部数据的协方差要求、以及类别之间的协方差要求设置;
所述步骤2中,进行层次聚类具体包括以下步骤:
首先,将数据中的每个样本归为一类,共得到n类,且每一类中仅包含一个样本,类与类之间的距离就是它们所包含的样本之间的距离;
然后,将距离最近的两个类进行合并成为一个新的类,记录类别数量和对应的Calinski-Harabasz值,并重新计算新的类与剩余的每一类之间的距离;
重复上述步骤直至所有的类被合并为一类;
步骤3,将步骤2中层次聚类聚成的每一簇中的各特征,剔除与典型特征值相差最大的非典型特征值,且剔除特征值个数不超过设定数量,并用空值填补被剔除的特征值;
所述步骤3中,剔除与典型特征值相差最大的非典型特征值,具体判断方法为:
扫描全部特征并记录特征值数据类型;
对非数值型特征值,定义占比不到5%的特征值为非典型的特征值,且占比越少即与典型特征值相差越大;
对数值型特征值,定义非典型的特征值为Z分数绝对值超过3且占比不到5%的特征值,Z分数绝对值越大与典型特征值相差越大;
步骤4,对经过步骤3处理后的每一簇中的各特征,进行特征值的聚类分箱,得到特征的主要分布区间作为对应特征的特征值,并根据特征的主要分布区间进行簇标签构建;
所述步骤4中,进行特征值的聚类分箱,具体的,包括以下步骤:
扫描全部特征的特征值,并对每个特征值设置一个可调整参数n;
若特征值范围不超过n个值,则无需聚类,特征的主要分布区间为对应特征值;
若该特征为非数值型特征且其特征值取值范围超过了n个值,则在该特征所对应的簇中取该特征值所对应的特征数量最多的前h个特征聚类输出结果一类,得到特征的主要分布区间为对应的特征值,将簇中剩余特征合为一类,并标记这类特征的主要分布区间为“其他”;
若该特征为数值型特征且特征值取值范围超过了n个值,则采用聚类输出结果不超过4类的聚类方法对该特征所对应的簇进行聚类,并计算特征值极大极小值构成的主要分布区间;
步骤5,使用数学期望算法对步骤4中的每一簇计算各个特征值对所述输出结果的影响;
步骤6,通过绘制数据及输出结果的旭日图对分析结果进行可视化展示,旭日图圈层总数量等于数据中特征总数量加一,旭日图最内为第一圈层,其各扇环表示模型的输出结果,每个扇环代表一簇结果;依据步骤5中计算的各个特征值对所述输出结果的影响,按照各个特征值对所述输出结果的影响的大小、对步骤2中的层次聚类聚成的每一簇由大到小进行排序,并构建用于表示数据不同特征的第二圈层到最外圈层,根据步骤4的聚类分箱结果得到每一簇对应的小扇环并在扇环上标记对应的簇标签。
2.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于:所述步骤2中,层次聚类的类别数量取使Calinski-Harabasz值最大的结果。
3.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于,步骤2中,所述Calinski-Harabasz值为s(k),,其中m为训练集样本数,k为类别数,是样本类别之间的协方差矩阵,k是类别内部数据的方差矩阵,tr()表示矩阵的迹。
4.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于:所述步骤3中,剔除特征值个数不超过设定数量,设定数量为剔除特征值个数不超过原始样本的30%。
5.如权利要求1所述的一种机器学习有监督模型解释方法,其特征在于,所述Z分数Zi=(xi-μ)/σ,式中,xi是一个数据点,μ是所有点xi的平均值,σ是所有点的xi标准偏差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011305758.8/1.html,转载请声明来源钻瓜专利网。