[发明专利]一种近红外光谱和拉曼光谱波长的筛选方法无效
申请号: | 201010137956.8 | 申请日: | 2010-04-02 |
公开(公告)号: | CN101825567A | 公开(公告)日: | 2010-09-08 |
发明(设计)人: | 邵学广;徐恒;刘智超;蔡文生 | 申请(专利权)人: | 南开大学 |
主分类号: | G01N21/35 | 分类号: | G01N21/35;G01N21/65;G06N99/00 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 红外 光谱 波长 筛选 方法 | ||
技术领域
本方法发明属于分析化学领域的无损分析技术,特别涉及一种近红外光谱和拉曼光谱波长的筛选方法。
背景技术
近红外光谱(NIR)是一种无损分析技术,具有处理简单、分析速度快、稳定性好等优点,已被广泛应用于农业、石化、医疗等行业。然而,由于近红外光谱谱带重叠现象严重,信号吸收较弱,且背景干扰严重等问题,必须借助于化学计量学方法才能进行定性定量分析。拉曼光谱分析法可提供快速、简单、可重复、无损伤的定性定量分析,在生物学、考古学和天文学等领域具有很好的应用前景。目前,拉曼光谱的分析主要还是利用典型物质的光谱或标准谱图对未知光谱实现比较、鉴别和定性分析。由于标准谱库建立的难度和光谱数据处理与分析的复杂性,多组分混合物样品拉曼光谱的定量分析还存在很多困难,而利用计量学方法就可以使拉曼光谱定量分析变得简单快速。因此,化学计量学方法已成为近红外光谱以及拉曼光谱分析中的研究热点,其中主成分分析方法(PCA)、偏最小二乘法(PLS)就是常用的多元建模方法。实践证明,多元建模方法结合近红外光谱分析方法非常实用有效,已被用于无创血糖浓度的定量分析的全新领域(U.S.Pat.No.4,975,581)。利用PCA方法结合拉曼光谱分析,可以实现在线分析和控制流化床反应器中的聚合物性能(U.S.Pat.No.7,116,414)。
在近红外光谱和拉曼光谱分析中,波长筛选一直是多元校正分析中的重要内容,可以解决波长中背景、噪声等信息对模型的干扰。波长筛选的基本方法之一就是找到一种评价波长对模型定量分析重要性的方法,根据波长评价值来筛选波长,保留对建模贡献较大的波长。大量的研究工作表明,有效的波长筛选可以改善模型的预测能力和减少模型的复杂程度。目前,光谱分析中波长筛选的方法主要包括:遗传算法(GA)、无信息变量消除法(UVE)、间隔偏最小二乘法(iPLS)以及连续投影算法(SPA)等。但是这些方法中,比如遗传算法(GA)计算周期较长而且容易陷入局部最优的局限;无信息变量消除法(UVE)中采用留一交叉验证法,使模型具有过拟合的风险。因此,如何建立预测能力好、稳健性强的模型,且在模型构建中避免过拟合现象都是以后研究中需要解决的问题和努力的方向。
统计学是研究如何有效地运用数据收集与数据处理、多种模型与技术分析等对数据进行推理,以便对问题进行推断或预测,从而为决策和行动提供依据和建议的应用广泛的基础性学科。由于统计分析是基于大量数据进行分析,通过统计得到的规律往往比较具有全局代表性和真实可靠性。波长筛选与统计分析结合的思想将会是以后的研究发展趋势。
本方法发明是通过统计学方法与化学计量学相结合,来实现对近红外光谱的波长选择。本方法通过建立大量的模型来实现,与单一模型相比可以从更多方面考虑光谱与浓度间的关系,所以可以减少模型过拟合风险,且根据模型的系数统计得到的结论更加可靠。
发明内容
本发明的目的是针对上述存在问题,提供一种近红外光谱和拉曼光谱波长的筛选方法,该方法可改善模型的预测能力、增强模型的稳健性、避免过拟合现象,使根据模型的系数统计得到的结论更加可靠。
本发明利用计量学方法建立多模型,结合统计学方法,通过对模型系数的统计分析来评价波长,实现近红外光谱和拉曼光谱波长筛选。
一种近红外光谱和拉曼光谱波长的筛选方法,包括以下步骤:
1)采集被测物样本的近红外光谱或拉曼光谱数据,随机分成三部分,包括训练集、检验集和预测集样本,用常规方法测定训练集和检验集中样本的被测成分浓度含量,得到训练集样本和检验集样本的被测成分浓度向量,其中训练集样本用来建立模型、检验集样本用来确定模型参数、预测集样本用来检验模型的预测能力;
2)利用训练集样本的光谱和被测成分浓度,进行偏最小二乘回归,得到真实模型回归系数向量b(1×p),p指波长点总数;
3)将上述训练集样本的被测成分浓度向量随机排序,即被测成分浓度不再与样本光谱呈一一对应的关系,利用这种随机化后的被测成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,得到随机模型;
4)重复步骤3,得到系列偏最小二乘回归随机模型及其模型回归系数矩阵B;
5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;
6)将波长根据其概率值的升序进行排列,得到概率向量f;
7)保留概率值小于最优域值的波长;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010137956.8/2.html,转载请声明来源钻瓜专利网。