[发明专利]一种基于双向自动编码器的并行自动机器学习系统在审
申请号: | 202111339006.8 | 申请日: | 2021-11-12 |
公开(公告)号: | CN116128065A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 史海波;潘福成;周晓锋;刘朋杰;李帅 | 申请(专利权)人: | 中国科学院沈阳自动化研究所 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F18/214;G06F18/24 |
代理公司: | 沈阳科苑专利商标代理有限公司 21002 | 代理人: | 许宗富 |
地址: | 110016 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双向 自动 编码器 并行 机器 学习 系统 | ||
1.一种基于双向自动编码器的并行自动机器学习系统,其特征在于,包括:
离线系统:构建元知识库单元、管道推荐单元,提取训练数据集和机器学习管道的元特征和偏好表示作为输入,训练双向堆叠自动编码器,用于学习数据集和机器学习管道的协同作用实现在线阶段中为新数据集推荐合适的管道;
在线系统:提取新数据集的元特征作为输入,利用训练好的自编码器为新数据集推荐管道,再通过选择性集成单元进行选择性集成,获取集成管道为新数据集的测试集预测类标签结果。
2.根据权利要求1所述的一种基于双向自动编码器的并行自动机器学习系统,其特征在于,所述元知识库单元,包括性能矩阵模块、数据集元数据模块、管道元数据模块;
所述性能矩阵模块用于根据Microsoft开源的元数据库或传感器采集的原始数据进行预处理得到简化版的元知识库;
所述数据集元数据模块用于通过各个机器学习管道在单个数据集的分类性能和元知识库中的数据集的元特征构建该数据集的元数据;
所述管道元数据模块用于通过单个机器学习管道在各个数据集上的分类性能和元知识库中的管道的元特征构建该管道的元数据。
3.根据权利要求2所述的一种基于双向自动编码器的并行自动机器学习系统,其特征在于,简化版的元知识库的获取步骤包括:
定义,以性能矩阵A表示各个机器学习管道在每个数据集上的分类准确率:性能矩阵A的行向量表示数据集,列向量表示各个机器学习管道;
1)删除性能矩阵中数据缺失率在90%以上的行元素;
2)对性能矩阵A中缺失的元素进行缺失值填充;
3)计算每个机器学习管道在各个数据集上的平均分类准确率;
4)将上述每个平均分类准确率映射到每类机器学习管道相应的超参数;
5)删除分类准确率低于阈值的管道;
6)利用多热属性对管道的元特征进行编码,属性值为管道的超参数,得到机器学习管道的元特征MFM。
4.根据权利要求2所述的一种基于双向自动编码器的并行自动机器学习系统,其特征在于,
1)所述数据集元数据模块通过各个机器学习管道在单个数据集的分类性能和元知识库中的数据集的元特征构建该数据集的元数据,包括:
将性能矩阵A与数据集的元特征矩阵MFD拼接到一起,得到数据集的元数据矩阵
2)所述管道元数据模块通过单个机器学习管道在各个数据集上的分类性能和元知识库中的管道的元特征构建该管道的元数据,包括:
将性能矩阵的转置AT与管道的元特征矩阵MFM拼接到一起,得到管道的元数据矩阵
其中,A表示各个机器学习管道在训练数据集上的性能矩阵,MFD表示数据集的元特征矩阵,MFM表示管道的元特征矩阵。
5.根据权利要求1所述的一种基于双向自动编码器的并行自动机器学习系统,其特征在于,所述管道推荐单元,包括双向自动编码器模块、融合损失函数模块;
所述双向自动编码器模块,用于分别学习数据集的元数据、管道的元数据,并将上述两种数据分别提取到潜在的空间;
所述融合损失函数模块,参数矩阵采取正则化并通过四部分损失函数构成的总损失函数,不断反复训练计算出新的性能矩阵,优化双向自动编码器的网络参数:权重矩阵W、偏置变量b。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院沈阳自动化研究所,未经中国科学院沈阳自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111339006.8/1.html,转载请声明来源钻瓜专利网。