[发明专利]一种支持多源数据的自动化监督性学习方法在审

申请号：	201710576402.X	申请日：	2017-07-14
公开（公告）号：	CN107516135A	公开（公告）日：	2017-12-26
发明（设计）人：	尹建伟;范子琨;邓水光;李莹;吴健;吴朝晖	申请（专利权）人：	浙江大学
主分类号：	G06N99/00	分类号：	G06N99/00;G06N3/00;G06K9/62;G06K9/46
代理公司：	杭州天勤知识产权代理有限公司33224	代理人：	王琛
地址：	310013 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种支持数据自动化监督性学方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种支持多源数据的自动化监督性学习方法，包括如下步骤：

(1)对输入的结构化数据进行预处理，得到训练集数据和验证集数据；

(2)根据目标特征利用贝叶斯优化器为结构化数据配置最优的机器学习管道，该管道包含特征工程以及预测模型所确定采用的算子组合；

(3)将训练集数据输入至所述机器学习管道，通过遗传算法以及平衡准确率对该机器学习管道中各算子的超级参数进行调优并保存。

2.根据权利要求1所述的自动化监督性学习方法，其特征在于：所述步骤(1)中对结构化数据进行预处理的过程依次包括数据转换、数据清洗以及数据划分；其中，数据转换是指将不同格式的结构化数据统一转换为CSV格式并将数据中的具体特征编码成数值形式；数据清洗是指对结构化数据中的缺失值按均值补全并去除其中重复的数据记录；数据划分是指将结构化数据中数据记录分成一份验证集和多份训练集。

3.根据权利要求1所述的自动化监督性学习方法，其特征在于：所述特征工程依次包括特征预处理、特征构建以及特征选择；其中，特征预处理有5种实施方法：标准化、归一化、正则化、二值化以及不做处理，特征构建有4种实施方法：特征编码、多项式生成、降维以及不做处理，特征选择有3种实施方法：基于单变量的特征选择、基于卡方检验的特征选择以及基于互信息熵的特征选择；每一环节允许有1～3种实施方法共同作用，每一种实施方法至少具有一种算子选择。

4.根据权利要求1所述的自动化监督性学习方法，其特征在于：所述预测模型采用针对离散值的分类算法或采用针对连续值的回归算法；其中，分类算法又分为二分类和多分类两种，分类算法和回归算法均具有多种算子选择。

5.根据权利要求3所述的自动化监督性学习方法，其特征在于：所述步骤(2)中利用贝叶斯优化器为结构化数据配置最优的机器学习管道，具体过程如下：

2.1根据目标特征为特征预处理、特征构建、特征选择以及预测模型每一环节设定函数边界，如每一环节只允许有1～3种实施方法共同作用，多分类算法能够实现二分类问题，但二分类算法无法实现多分类问题；

2.2利用贝叶斯优化器中的开源引擎SMAC建立高斯过程，并从所有可能的算子组合中初始采样50个点，每个点即对应一机器学习管道，这些点均服从多变量的高斯分布；

2.3根据高斯分布的特性计算这些点的均值和方差，并根据以下收获函数AF采样下一批50个点，直至收获函数AF达到最大；

AF＝μ(x)+β^1/2σ(x)

其中：x为由当前采样得到50个点组成的集合，μ(x)和σ(x)分别为集合x的均值和方差，β为权重系数；

2.4对于最终采样得到的50个点，利用验证集数据计算每个点对应的平衡准确率，取平衡准确率最大的点作为最优的机器学习管道。

6.根据权利要求1所述的自动化监督性学习方法，其特征在于：所述步骤(3)中对机器学习管道中各算子的超级参数进行调优，具体过程如下：

3.1根据各算子超级参数的取值范围，利用开源遗传算法引擎Deap生成100组超参序列作为第一代种群，所述超参序列包含机器学习管道中各算子所有超级参数的具体值；

3.2利用训练集数据分别在这100组超参序列下通过特征工程训练预测模型，并利用验证集数据计算对应预测模型的平衡准确率；

3.3根据平衡准确率对这100组超参序列从大到小进行排列，使用NSGA-II算法从中选取出最优的20组超参序列；

3.4将选取出的20组超参序列复制5份得到100组超参序列，对这100组超参序列按5％、5％、30％、30％、30％进行划分，使其中5％的超参序列与另外5％的超参序列进行杂交，使其中30％的超参序列进行单点变异，使另外30％的超参序列进行插入变异，使剩下30％的超参序列进行收缩变异，经杂交变异后得到的100组超参序列即为第二代种群；

3.5根据步骤3.2～3.4进行迭代并更新每一代的Pareto效率值，直至找到Pareto最优解所对应的一代种群，并选取这代种群中平衡准确率最大的一组超参序列作为最优结果并保存。

7.根据权利要求6所述的自动化监督性学习方法，其特征在于：所述平衡准确率的计算表达式为：f＝(x_recall+x_precise)/2；其中，f为平衡准确率，x_recall和x_precise分别为验证集数据输入至预测模型得到的召回率和准确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710576402.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种适用于多款电源型号的电源控制板
下一篇：配电房智能远程控制装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N99-00 本小类其他各组中不包括的技术主题

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种支持多源数据的自动化监督性学习方法在审

专利文献下载