[发明专利]一种基于集成学习的近红外光谱定量建模方法有效
申请号: | 201710589783.5 | 申请日: | 2017-07-19 |
公开(公告)号: | CN107290305B | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 刘晶;吴跃进;王琦;余立祥;刘斌美;倪晓宇;杨阳;周子军;杨叶;詹玥 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G01N21/359 | 分类号: | G01N21/359 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
地址: | 230031 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 红外 光谱 定量 建模 方法 | ||
一种基于集成学习的近红外光谱定量建模方法,包括:确定初始数据集,包含用于建模的校正集和验证的预测集,并对数据进行预处理;将校正集样本按照聚类的策略分成p类,从每类中随机抽取一个样本构成子模型的验证集,余下的部分构成该子模型的校正集;采用选取的定量建模方法对子模型的校正集进行训练,通过模型输出对初始数据集中预测集的预测误差信息进行统计,并获得以预测误差的方差为参数的权函数;重复上述步骤,构建出多个子模型,并对各个子模型按照预测误差的方差加权得到稳健性强的定量校正模型;利用稳健性强的整体定量校正模型结合预测集样本完成定量建模。本发明具有以下优点:使整个模型的输出结果更加接近真实值。
技术领域
本发明涉及一种光谱分析技术,尤其涉及的是一种近红外光谱定量分析技术。
背景技术
光谱分析技术特别是近红外光谱技术,具有快速、简单、非破坏性的特点,在复合体系诸如环境、化工、药品和食品中可以作为定量分析的手段。由于样品背景、噪声和谱带重叠的影响,通常需要借助化学计量学方法来建立光谱和测试对象的关联模型,因此基于化学计量学方法的多元校正技术在光谱分析中占据重要地位。
传统的经典校正方法如偏最小二乘,将测量得到的光谱数据和实验对象的成分含量进行关联,经常会出现预测精度低和模型鲁棒性差的问题,究其原因,主要是因为基于经典校正方法的偏最小二乘建模对校正样中噪声和异常值敏感,且校正样本的数量和不均匀性等因素会使偏最小二乘建模方法对不同的校正样和预测样的分析效果相差很大,降低了模型的适用性。
集成学习作为一种机器学习方法,它试图通过调用一些简单的学习算法,以获得多个不同的基学习机(通常是预测性能比较弱的学习机),然后采用某种策略将这些基学习机组合成一个集成学习机,由于它能显著提高一个学习系统的泛化能力,因此集成学习的理论和算法研究已经成了机器学习领域中的热点问题。目前集成学习方法结合多元校正产生了两类建模方法:Bagging和Boosting,两者主要的不同在于构建子模型的样品抽取方法和子模型的集成方法。其中Bagging采用有放回抽取的原则构造子模型校正样本集,其中会有部分样品重复出现,最后采用求平均的策略集合多个子模型;Boosting方法采用按概率抽取部分校正集样品构成子模型校正集的原则,随着迭代的进行更新各个样本被抽取的概率,按照训练集误差越大抽取概率越大的策略,实现了对误差较大样本的多次重复抽取,在子模型集成策略上,Boosting方法构造一个可信度指标,按照可信度指标越大权重越大的策略对迭代中产生的所有子模型预测结果进行加权求和。
综上,现有的经典校正方法对校正样中的噪声信息和异常值敏感,样品数量的变化和不均匀性会导致所建立模型的预测精度下降和鲁棒性变差。传统Bagging方法按照有放回抽取的原则构造子模型的校正集样本,会导致子模型的校正集样本的均匀性不足,无法完全覆盖验证集,往往容易出现过拟合的情形。
发明内容
本发明所要解决的技术问题在于提供了一种使整个模型的输出结果更加接近真实值的基于集成学习的近红外光谱定量建模方法。
本发明是通过以下技术方案解决上述技术问题的:一种基于集成学习的近红外光谱定量建模方法,包括以下步骤:
步骤S101,确定初始数据集,包含用于建模的校正集(Xc,Yc)和验证的预测集(Xp,Yp),并对数据进行预处理;
步骤S102,将初始数据集中的校正集样本按照聚类的策略分成p类,从每类中随机抽取一个样本构成子模型的验证集,余下的部分构成该子模型的校正集;
步骤S103,采用选取的定量建模方法对子模型的校正集进行训练,通过模型输出对初始数据集中预测集的预测误差信息进行统计,并获得以预测误差的方差为参数的权函数;
步骤S104,重复步骤102和步骤103一定次数,构建出多个子模型,并对各个子模型按照预测误差的方差加权得到稳健性强的定量校正模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院,未经中国科学院合肥物质科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710589783.5/2.html,转载请声明来源钻瓜专利网。