[发明专利]用于异常检测的机器学习分类任务的优化方法和装置在审
申请号: | 202011131643.1 | 申请日: | 2020-10-21 |
公开(公告)号: | CN114462460A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 孙琦;范顺杰;介鸣 | 申请(专利权)人: | 西门子(中国)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100102 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 异常 检测 机器 学习 分类 任务 优化 方法 装置 | ||
提供了用于异常检测的机器学习分类任务的优化方法和装置。根据本公开的一个方面的方法包括:收集用于反映生产过程或产品的状态的样本数据以形成样本数据集,其中,样本数据集中的每一条样本数据具有多个特征;确定针对样本数据集的一个或多个候选主成分集合;针对一个或多个候选主成分集合中的每一个,执行以下操作:将样本数据集投影到该候选主成分集合上以获得投影后的样本数据集,使用投影后的样本数据集来对多个候选机器学习分类模型中的每一个进行训练,以及评估经训练的候选机器学习分类模型中的每一个的性能分数;选择具有最高性能分数的候选机器学习分类模型和相对应的候选主成分集合,作为最优机器学习分类模型和最优主成分集合。
技术领域
本公开总体上涉及信息处理,更具体地,涉及用于异常检测的机器学习分类任务的优化方法和装置。
背景技术
作为人工智能的一个重要分支,机器学习近年来随着计算能力的提升、新算法和模型的涌现、以及海量数据的供应而得到了极大发展。分类是机器学习技术最常见应用的任务场景之一,包括在工业领域的应用。例如,机器学习分类模型的使用极大地改进了包括预测性维护和诊断等在内的离散控制和过程控制操作的效率和自动化程度,预测性诊断和维护不但能够提供早期预警和保护性指导而且提升了机器/设备的上线时间并降低了维护成本,由此尽可能减少甚至避免经济损失。
机器学习分类任务面临的挑战之一在于输入数据的选取和处理。在很多实际场景中,尽管能够容易获得各种数据作为输入提供给机器学习分类模型来执行分类任务,但是数据维度过高或者说变量过多,亦即包含的特征或属性过多,不但会降低计算性能而且带来了噪声并因此导致分析复杂度升高、分析能力下降。虽然可以采用诸如主成分分析这样的方法来自动化地实现高维数据的降维,但利用这样降维后的数据执行的机器学习分类任务的性能仍有待改进。
发明内容
提供本发明内容部分来以简化的形式介绍一些选出的概念,其将在下面的具体实施方式部分中被进一步描述。该发明内容部分并非是要标识出所要求保护的主题的任何关键特征或必要特征,也不是要被用于帮助确定所要求保护的主题的范围。
根据本公开的一个方面,提供了一种用于异常检测的机器学习分类任务的优化方法,包括:收集用于反映生产过程或产品的状态的样本数据以形成样本数据集,其中,所述样本数据集中的每一条样本数据具有多个特征;确定针对所述样本数据集的一个或多个候选主成分集合;针对所述一个或多个候选主成分集合中的每一个,执行以下操作:将所述样本数据集投影到该候选主成分集合上以获得投影后的样本数据集,使用所述投影后的样本数据集来对多个候选机器学习分类模型中的每一个进行训练,以及评估经训练的候选机器学习分类模型中的每一个的性能分数;以及选择具有最高性能分数的候选机器学习分类模型和相对应的候选主成分集合,作为最优机器学习分类模型和最优主成分集合。
本公开的上述方面提供了一种有助于优化用于异常检测的机器学习分类任务的高效机制,其在具备对原始的高维样本数据进行有效降维以降低计算负荷提高计算性能的能力的基础上,能够充分探索不同的目标维度选项(即对应于一个或多个候选主成分集合)与不同的机器学习分类模型之间的最佳匹配,使得机器学习分类任务的执行性能能够达到最优。
此外,在前述方面的一个示例中,所述方法还可以包括使用所述最优机器学习分类模型来执行所述机器学习分类任务,其包括:将采集的具有多个特征的样本数据投影到所述最优主成分集合上;将投影后的样本数据作为输入提供给所述最优机器学习分类模型;以及获得所述最优机器学习分类模型输出的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西门子(中国)有限公司,未经西门子(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011131643.1/2.html,转载请声明来源钻瓜专利网。