[发明专利]用于异常检测的机器学习分类任务的优化方法和装置在审
申请号: | 202011131643.1 | 申请日: | 2020-10-21 |
公开(公告)号: | CN114462460A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 孙琦;范顺杰;介鸣 | 申请(专利权)人: | 西门子(中国)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100102 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 异常 检测 机器 学习 分类 任务 优化 方法 装置 | ||
1.一种用于异常检测的机器学习分类任务的优化方法,包括:
收集用于反映生产过程或产品的状态的样本数据以形成样本数据集,其中,所述样本数据集中的每一条样本数据具有多个特征;
确定针对所述样本数据集的一个或多个候选主成分集合;
针对所述一个或多个候选主成分集合中的每一个,执行以下操作:
将所述样本数据集投影到该候选主成分集合上以获得投影后的样本数据集,
使用所述投影后的样本数据集来对多个候选机器学习分类模型中的每一个进行训练,以及
评估经训练的候选机器学习分类模型中的每一个的性能分数;以及
选择具有最高性能分数的候选机器学习分类模型和相对应的候选主成分集合,作为最优机器学习分类模型和最优主成分集合。
2.根据权利要求1所述的方法,还包括使用所述最优机器学习分类模型来执行所述机器学习分类任务,其包括:
将采集的具有多个特征的样本数据投影到所述最优主成分集合上;
将投影后的样本数据作为输入提供给所述最优机器学习分类模型;以及
获得所述最优机器学习分类模型输出的预测结果。
3.根据权利要求1或2所述的方法,其中,确定针对所述样本数据集的一个或多个候选主成分集合包括:
对所述样本数据集中的所有样本数据进行中心化处理;
计算所述样本数据的协方差矩阵;
对所述协方差矩阵进行特征分解以求得多个特征值以及对应的特征向量;
计算所述多个特征值中最大的M个特征值的累计方差贡献率cM,使得cM满足预设的累计方差贡献率阈值B;
将M与T进行比较,其中,T是预设的主成分数目阈值;
如果M>T,则对于m=T+1,T+2,...,M中的每一个,将与所述多个特征值中最大的m个特征值相对应的m个特征向量确定为一个候选主成分集合,共计(M-T)个候选主成分集合;
如果M<T,则对于m=T-1,T-2,...,M中的每一个,将与所述多个特征值中最大的m个特征值相对应的m个特征向量确定为一个候选主成分集合,共计(T-M)个候选主成分集合;以及
如果M=T,则对于m=T-A,...,T-1,T,T+1,...,T+A中的每一个,将与所述多个特征值中最大的m个特征值相对应的m个特征向量确定为一个候选主成分集合,共计(2A+1)个候选主成分集合,其中,A是预设的主成分数目调整范围。
4.根据权利要求3所述的方法,其中,如果|cM-B|≤Δ,则所述多个特征值中最大的M个特征值的累计方差贡献率cM满足所述预设的累计方差贡献率阈值B,其中,Δ是预设的可允许偏差。
5.根据权利要求3所述的方法,其中,对所述协方差矩阵进行特征分解以求得多个特征值以及对应的特征向量还包括:记录所述样本数据集的多个特征中与所述多个特征值中的每一个相对应的特征;并且
其中,所述方法还包括:
基于与所述最优主成分集合中的特征向量相对应的特征值,根据所述记录确定最优特征集合,以及
根据所确定的最优特征集合来优化样本数据采集。
6.根据权利要求1或2所述的方法,其中,评估经训练的候选机器学习分类模型中的每一个的性能分数包括:
基于所述投影后的样本数据集中的测试集,计算使用所述投影后的样本数据集中的训练集训练的每一个候选机器学习分类模型的准确率。
7.根据权利要求2所述的方法,还包括:
基于所述预测结果对所述生产过程或所述产品进行控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西门子(中国)有限公司,未经西门子(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011131643.1/1.html,转载请声明来源钻瓜专利网。