[发明专利]一种近红外光谱分析中的异常样本识别方法在审
申请号: | 201710123913.6 | 申请日: | 2017-03-03 |
公开(公告)号: | CN106596465A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 王艳;尹艳玲;沈维政;孙红敏;李晓明 | 申请(专利权)人: | 东北农业大学 |
主分类号: | G01N21/359 | 分类号: | G01N21/359 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150030 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 红外 光谱分析 中的 异常 样本 识别 方法 | ||
技术领域
本发明涉及近红外光谱分析技术领域,具体涉及一种近红外光谱分析中的异常样本识别方法。
背景技术
近红外光谱分析技术具有分析速度快、对样本无损害、成本低等特点,已广泛应用于农业、食品、医药等领域。近红外光谱分析数据包括样本光谱扫描数据和样本元素的化学值数据,样本制备方法不当、周围环境因素改变及仪器自身问题等因素会导致光谱数据中存在异常数据,而化学值的获取大多都是通过化学实验方法获得的,实验过程中的方法不当和误操作同样会引起化学值数据中存在异常。不同分析过程中的近红外光谱分析数据可能既包含光谱异常又包含化学值异常,也有可能只包含其中一种异常数据。近红外光谱分析结果的可靠性首先取决于原始数据的准确性,异常数据会影响实验数据的整体分布,最终影响所建模型的预测能力,因此识别并剔除异常样本是建立可靠模型的先决条件。
发明内容
本发明的目的是提供一种能够有效识别近红外光谱分析中光谱异常、化学值异常的异常样本识别方法,同时能够保留特异样本,保证分析模型可靠性的基础上,提高模型的适用性和稳定性。
本发明的目的通过如下技术方案实现:
一种近红外光谱分析中的异常样本识别方法,包括以下步骤:
1.改变半数重采样算法的结果表达方式
为了便于本发明中选择最佳置信区间,原方法中,每次采样后依据计算距离利用置信区间选取异常样本点,对异常样本点计数累加,根据累加结果选择异常样本;改为每次采样后对计算得到的距离累加,对累加的数据按照置信区间,选取最终的异常样本数据。
2.利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间
半数重采样算法置信区间设置为0.95到0.99,在每个置信区间下应用改变后的半数重采样算法选择异常样本点。针对不同的置信区间,去除异常样本点,建立偏最小二乘模型,对比校正集均方误差根的值,具有最小校正集均方误差根模型所对应的置信区间为最佳置信区间。
3.利用Cook距离方法对样本化学值数据进行异常样本识别,选择最佳置信区间
计算样本化学值的Cook距离,设定置信区间为0.95到0.99,选择每一置信区间下的Cook距离大的样本点为异常样本点。针对不同的置信区间,去除异常样本点,建立偏最小二乘模型,对比校正集均方误差根的值,具有最小校正集均方误差根模型所对应的置信区间为最佳置信区间。
4.作样本散点图,判断特异样本
以Cook距离值为横坐标,半数重采样算法计算得到的距离为纵坐标,对所有样本点做散点图。联合步骤2、3中最佳置信区间,划分样本。样本被划分为四个区域,处于右上方区域的样本为既存在光谱异常又存在化学值异常的样本。计算这些样本光谱数据的杠杆值,若杠杆值很高,则标记为异常样本,否则,该样本应为特异样本,予以保留能够增强模型的适用性和稳定性。
5.标记异常样本
对处于散点图左上方和右下方区域的样本点,标记为异常样本点。
本发明具有的有益效果:能够综合考虑光谱异常、化学值异常同时存在或只存在一种的情况,有效去除近红外光谱分析数据中的异常样本,同时保留特异样本,保证分析模型可靠性的同时,提高模型的适用性和稳定性。
附图说明
图1为改变半数重采样算法结果表达方式的方法
图2为样本点半数重采样距离分布图
图3为样本点Cook距离柱状图
图4为样本散点图
图5为样本点光谱数据杠杆值柱状图
具体实施方式
下面结合附图和实施例对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供的一种近红外光谱分析中的异常样本识别方法,主要包括如下步骤:
1.改变半数重采样算法的结果表达方式
参考图1,原方法中每次采样后按置信区间选取异常样本,然后对相应异常样本进行累加计数;改为每次采样后对每个样本计算得到的距离进行累加,采样结束后,再按照置信区间选取距离大的样本作为异常样本。
2.利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北农业大学,未经东北农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710123913.6/2.html,转载请声明来源钻瓜专利网。