[发明专利]一种虚拟样本生成方法在审
申请号: | 201510496474.4 | 申请日: | 2015-08-13 |
公开(公告)号: | CN105046320A | 公开(公告)日: | 2015-11-11 |
发明(设计)人: | 汤健;孙春来;毛克峰;贾美英;李东;李立国;胡亚男 | 申请(专利权)人: | 中国人民解放军61599部队计算所 |
主分类号: | G06N3/00 | 分类号: | G06N3/00 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 刘锋;柳兴坤 |
地址: | 100029 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 虚拟 样本 生成 方法 | ||
技术领域
本发明涉及机器学习技术领域,具体涉及一种虚拟样本生成方法。
背景技术
基于大数据的机器学习技术已经广泛和成功地应用于很多不同的行业。对于许多稀有疾病的医疗记录和柔性制造系统的早期阶段,只有少量的训练样本能够用于构造预测模型。对于复杂的流程工业过程,为实现其优化控制和运行优化,必需对关键机械设备的难以检测过程参数进行测量或预测,如磨矿过程磨机内部负荷参数难以直接检测和采用机理模型直接计算得到,主要采用基于磨机筒体的振动和振声信号高维频谱数据的软测量方法进行。但有效的建模数据只能在两个阶段获得:(1)专门为软测量模型构建进行的实验设计阶段;(2)磨机的停止运行和重新开始运行阶段。在实际工业过程中,以牺牲经济利益为代价或经过很长的等待时间后,也许可以获得足够数量的可用的训练样本。在稀有疾病的医疗记录和柔性制造系统的早期阶段同样存在类似的难以获得足够建模样本的问题。因此,现实情况是我们必须进行面向高维小样本数据的建模研究。
研究表明,足够的样本数量对于构建有效的学习模型非常重要。目前已有的大量的研究多面向分类问题,如文献[1]研究了分类误差、学习样本数量、样本输入维数和分类算法复杂性间的相互关系。为了确定获得必要的预测性能而需要的最小样本的数量,研究人员提出了概率近似正确、训练样本与输入特征比率等指标[2,3]。目前,关于小样本数据的定义也是非常相对和主观的。
现有技术提出了一种新的巨型趋势分散(MTD)技术用于解决早期柔性制造系统的计划调度问题,主要采用虚拟样本生成(VirtualSampleGeneration,VSG)技术提高误差逆传播神经网络(BPNN)模型的分类精度。目前,已有多种类型的VSG方法,如利用领域专家知识、将噪声加入输入数据、利用原始样本的分布函数等。这些研究多面向基于高维小样本数据的分类问题。
对于用于回归问题的虚拟样本生成,文献[4]提出基于多层感知器网络的VSG方法用于提高学习模型的泛化性能,其中:虚拟样本的输入通过选择真实样本输入的附近点产生,虚拟样本的输出通过平衡不同多层感知器网络输出数据获得。文献[5]提出用分散神经网络(DNN)产生虚拟样本和建模小数据集,仿真结果表明DNN比BPNN具有更强的预测性能。这些方法通常都是单独处理训练样本的输入特征。最近,文献[6]提出的基于遗传算法(GA)的VSG方法可以描述不同输入特征间的积分效应。
上述方法采用传统的单模型产生虚拟样本。对于具有复杂分布的建模数据或高维小样本训练数据,传统的单模型建模方法难以进行有效的模式识别或回归建模。
【1】S.J.Raudys,A.K.Jain,“SmallSampleSizeEffectsinStatisticalPatternRecognition:RecommendationsforPractitioners,”IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.13,no.3,pp.252-265,1991.
【2】J.Shawe-Taylor,M.Anthony,andN.L.Biggs,“BoundingSampleSizewiththeVapnik-ChervonenkisDimension,”DiscreteAppliedMath.,vol.42,pp.65-73,1993.
【3】Y.MutoandY.Hamamoto,“ImprovementoftheParzenClassifierinSmallTrainingSampleSizeSituations,”IntelligentDataAnalysis,vol.5,no.6,pp.477-490,2001.
【4】S.Z.Cho,M.Jang,S.J.Chang.Virtualsamplegenerationusingapopulationofnetworks,neuralprocessingletters,vol.5,pp.83-89,1997.
【5】C.F.HuangandC.Moraga,“ADiffusion-Neural-NetworkforLearningfromSmallSamples,”Int’lJ.ApproximateReasoning,vol.35,pp.137-161,2004.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军61599部队计算所,未经中国人民解放军61599部队计算所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510496474.4/2.html,转载请声明来源钻瓜专利网。