[发明专利]一种多尺度扫描级联森林学习机的训练方法在审
申请号: | 201710117221.0 | 申请日: | 2017-03-01 |
公开(公告)号: | CN106874959A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 周志华;冯霁 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 尺度 扫描 级联 森林 学习机 训练 方法 | ||
技术领域
本发明涉及一种多尺度扫描级联森林学习机的训练方法,用于大规模数据下的人工智能与模式识别任务。
背景技术
近年来,深度神经网络技术在人工智能领域的语音,图像,文本识别方面取得了广泛成功,但存在几点不足:1)深度神经网络对训练数据的需求巨大,在中小规模数据上表现不佳。2)深度神经网络需要昂贵的并行计算芯片(诸如图形加速卡),以完成运算。3)深度神经网络技术的超参数极其复杂,使用者需要耗费巨大的时间进行参数调整,以获得满意的性能表现。基于以上不足,本发明提出了一种以随机森林为基础的级联森林学习机的训练方法,在辅以多尺度扫描的独特处理技术下,该学习机一方面可以达到同深度神经网络相媲美的性能表现,另一方面,该装置几乎不需要对超参数进行人工调整,在中小数据下同样具有优异的表现,并且不需要额外的图形加速卡进行辅助运算。
发明内容
发明目的:针对深度神经网络在大规模数据下识别任务的不足,本发明提供一种多尺度扫描级联森林学习机的训练方法。基于随机森林学习器,通过一种级联的机制进行级联训练,以达到特征学习的目的,与此同时,针对时序数据和具有空间关联的数据,本发明提出了一种多尺度扫描的方法,对高维时空数据进行扫描和预处理,使得该学习机可以感知输入数据的结构性,以达到精准识别的目的。
技术方案:一种多尺度扫描级联森林学习机的训练方法,通过以下流程运作:
(1)通过级联扫描的方式,对训练集进行预处理。
(2)将预处理后的数据,分别通过多组决策树集成下的随机森林进行训练,并获得每个样本的分类向量。
(3)将前述方式获得的所有分类向量结合成一个单独的输入,进行级联训练。
(4)将级联训练的最终结果进行集成平均,获得最终识别预测结果。
附图说明
图1是本发明级联训练的流程图;
图2是本发明的细粒度扫描的流程图;
图3是本发明的训练流程图;
图4是本发明的使用流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种多尺度扫描级联森林学习机的目的是对输入数据进行分类,在获得已标记数据(训练集)的前提下,进行自动学习,并具备识别新数据的能力。
为了对输入数据进行识别分类任务,需要先对已标注好的数据集合(按照惯例,这里称作训练集)进行自动学习,训练完毕后,该装置即具备了识别新数据的能力。本说明书将分别介绍该装置的训练过程和使用过程。
I.多尺度扫描级联森林学习机的训练学习过程
该装置的训练过程由如下两个子方面构成:
1.级联训练(如图1)。该装置提出了一种新的级联训练过程,具体流程如下。首先,对训练输入数据,分别拟合N个基于决策树的集成森林(图示为4个),这里N可以是任何正整数。训练完毕后,N个森林可以产生由d*N个元素的向量,其中d是训练集中的类别数目(图中d为3)。将这d*N个元素连同上一层输入一起,形成了(K+d*N)维的向量,这将是下一层级联训练的输入。为了防止过拟合,级连训练的层数L,将以k折交叉验证进行。
2.细粒度扫描训练。针对高维数据或时序/图像类数据,该装置提出了一种新的多尺度扫描的方式,具体过程如图2所示。给定一个输入数据,通过细粒度的扫描窗格对数据进行预处理,将会生成一组维度较低的,具有局部结构特征的数据,然后针对预处理后的数据,分别拟合数个以决策树为基础的集成器,并将预测类别向量的结果连接起来,作为级联学习的输入。(具体训练流程见图2)
基于此,多尺度扫描级联森林学习机的训练过程如图3所示。多尺度级联森林学习机结合了前述1,2两个步骤,将其统一为一个整体流程。具体如下:首先,对输入数据进行多尺度的细粒度扫描。不同的尺度wi将有尺度集合W预先定义,每个扫描尺度所对应的森林数目为N。其次,将多尺度扫描的结果作为级联训练的输入,按照步骤1的方式进行级联训练,每次级联的集成森林数目为M。级连训练的层数L,由其在独立验证集上的性能表现进行自动确定。
训练完毕后,所有集成森林的参数及级联层数,将会作为训练过程的输出,供该装置进行预测识别任务(具体训练流程如图3)
II.多尺度扫描级联森林学习机的使用过程
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710117221.0/2.html,转载请声明来源钻瓜专利网。