[发明专利]一种基于支持向量机的近红外光谱数据分析方法在审
申请号: | 201810912233.7 | 申请日: | 2018-08-10 |
公开(公告)号: | CN109034261A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 刘军;吴梦婷;肖澳文 | 申请(专利权)人: | 武汉工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/50;G06N3/08 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 唐万荣;李丹 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持向量机 近红外光谱数据 样本 回归模型 测试集 训练集 分析 预处理 近红外光谱图 归一化处理 近红外光谱 惩罚因子 仿真预测 模型预测 特征波长 最佳参数 方差 存储 采集 分类 回归 预测 重复 | ||
本发明公开了一种基于支持向量机的近红外光谱数据分析方法,包括如下步骤:1)采集样本的近红外光谱图和样本中某种物质的含量;2)对数据进行预处理,同时进行特征波长选择;3)取m个数据作为训练集,剩下的n‑m个数据作为测试集;4)基于训练集和测试集,对数据进行归一化处理;5)寻找最佳参数惩罚因子c和RBF核函数中的方差g,进行第一次支持向量机回归模型训练;6)将第一次模型预测中不能正确分类的样本加入到训练集中,重复上述的3)至5)步,建立第二次支持向量机回归的模型;7)存储训练出来的近红外光谱数据分析的回归模型;8)进行支持向量机仿真预测。本发明能够更为准确的分析近红外光谱的数据,预测的精度高。
技术领域
本发明涉及红外光谱数据分析技术,尤其涉及一种基于支持向量机的近红外光谱数据分析方法。
背景技术
目前近红外光谱数据分析中常用到的算法常用的有:偏最小二乘法:建立回归模型的同时可以进行主成分分析简化数据,预测性能较好,但是仅在少数情况下使用具有优势;BP神经网络算法:具有很强的非线性映射能力和自学习能力,但是学习速度慢,容易出现“过拟合”现象;线性判别分析法:属于有监督的学习降维,不适合非高斯分布样本进行降维,可能会过度拟合数据;主成分分析法:有助于信息的提取和聚类分析,能够有效地降低误差和消除噪音,当样本中的部分有用变量的相关性很小时,容易发生遗漏。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于支持向量机的近红外光谱数据分析方法。
本发明解决其技术问题所采用的技术方案是:
一种基于支持向量机的近红外光谱数据分析方法,包括如下步骤:
1)采集样本的近红外光谱图和样本中某种特征物质的含量,例如蛋白质或者油的含量;
2)对数据进行预处理以减少近红外光谱噪声对模型构建的影响,同时进行特征波长选择;
3)利用随机数函数产生得到的m个数据作为训练集,剩下的(n-m)个数据作为测试集;
4)基于训练集和测试集,对数据进行归一化处理;
5)寻找最佳参数c(惩罚因子)和参数g(RBF核函数中的方差),训练支持向量机,进行反归一化,并且进行第一次支持向量机回归模型的训练;
参数寻找具体如下:
核函数采用了默认的RBF核函数,让惩罚因子c和RBF核函数中的方差g在设定的范围内进行取值,自由组合得到多组c和g参数的组合,对于取定的参数组合,把上述的训练集作为原始数据集,利用交叉验证的方法在此组c和g下进行训练,将模型准确率最高的c和g参数作为最佳参数;当模型的性能相同时,选择惩罚因子c比较小的参数组合;
6)若存在第一次模型训练中不能正确分类的样本,将第一次模型预测中不能正确分类的样本加入到训练集中,重复上述的步骤3)至5),建立第二次支持向量机回归的模型,通过支持向量机回归对近红外光谱的数据进行分析,得到训练集预测结果;
7)存储训练出来的近红外光谱数据分析的回归模型;
8)进行支持向量机仿真预测,得出训练集预测结果和测试集预测结果进行对比。
本发明产生的有益效果是:本发明提供了一种准确率更高的预测方法。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的近红外光谱图;
图2是本发明实施例的训练集预测结果对比图;
图3是本发明实施例的测试集预测结果对比图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810912233.7/2.html,转载请声明来源钻瓜专利网。