[发明专利]基于近红外光谱波数K均值聚类的烟草化学值定量方法在审
申请号: | 201510508335.9 | 申请日: | 2015-08-18 |
公开(公告)号: | CN105138834A | 公开(公告)日: | 2015-12-09 |
发明(设计)人: | 毕一鸣;储国海;周国俊;夏琛;吴继忠;袁凯龙;史春云;夏骏 | 申请(专利权)人: | 浙江中烟工业有限责任公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 刘静静 |
地址: | 310009 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 红外 光谱 均值 烟草 化学 定量 方法 | ||
技术领域
本发明涉及烟草的理化检测技术领域,具体涉及一种基于近红外光谱波数K均值聚类的烟草化学值定量方法。
背景技术
烟草中的主要化学成分如总糖、烟碱、还原糖、总氮等对烟叶品质具有重要影响,是决定烟气劲头,醇和度等的主要因素。在烟草工业中,常规化学成分的分析测定对卷烟成品质量的控制具有重要的意义。
近红外光谱能够表征待测物中多种含氢基团信息,具有采样方便、无损伤、无污染、能够在线检测等优点,非常适合用于各种复杂混合物的检测。近红外光谱检测技术目前已广泛应用于烟草领域,例如打叶复烤中基于烟碱含量的均质化加工及卷烟生产中的质量监测等。应用近红外分析技术,可以较好的预测烟叶中烟碱,总糖,总氮等主要化学成分含量,对烟叶质量进行快速初步的评价有极大地帮助。
目前基于近红外的烟叶主要化学成分建模主要是通过偏最小二乘算法(PartialLeastSquares,PLS)来实现,PLS是为了弥补最小二乘在计算强共线性数据时的缺陷而提出的(参见文献H.Martens,S.A.Jensen,andP.Geladi,“Multivariatelinearitytransformationsfornearinfraredreflectancespectroscopy,”inProc.NordicSymp.AppliedStatistics,1983,pp.205–234.)。
考虑一组因变量Y={y1,y2,…,yq}和一组自变量X={x1,x2,…,xp},在X存在严重多重相关性或者样本数量少于变量个数时,对矩阵XTX求逆将会失效。PLS采用成分提取的办法解决这个问题,通过在X和Y中依次提取出成分分量,保证X中分量与Y中分量的协方差最大,从而实现回归建模、数据结构简化以及分析两组变量之间的相关性,能够有效地处理多变量和共线性问题,非常适合应用于近红外光谱的定量分析。
然而,针对烟草等复杂的天然产品,PLS方法在算法执行中对所有波数信息统一进行处理,对感兴趣物质含量相关区域、无信息区域以及噪声区域等没有进行甄别,致使模型的预测精度和解释能力没有达到最优。同时,由于近红外光谱定量分析属于二次分析方法,即在标准分析方法(如流动分析等)的基础上进行建模,其模型误差对后续应用有较大影响。
例如,打叶复烤中根据化学值对烟叶进行调配,保证复烤烟叶质量均一稳定,又如,在烟叶醇化过程中,监测不同种类烟叶随醇化时间的烟叶化学值和品质变化过程,优选最佳的醇化时间等。在上述应用中,都需利用近红外光谱快速大量的获取分析数据,同时,由于其预测精度对后续的调配,加工等至关重要,因此,需优化定量分析模型以提供精准的化学值预测。
现有的基于近红外的烟草化学值的建模方法为单一PLS算法,该算法执行中对光谱的各局部信息没有进行筛选或处理,导致部分高噪声变量同时进入到建模过程中,对于与待测化学值关联性较强的谱段没有进行适当的增强,致使模型的预测精度和解释能力没有达到最优。
由于现有的基于近红外的烟草化学值的建模方法为单一PLS算法,对近红外光谱中的各个波段统一处理,存在对光谱噪声的抑制能力不强,对光谱中的有效信息挖掘能力不够的缺点。
发明内容
本发明提供了一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,利用近红外光谱的波数K均值聚类和模型集成,建立烟草中化学成分的定量模型,降低近红外光谱信号中的干扰因素,提高定量模型的预测精度。
一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,包括如下步骤:
(1)建立训练集和测试集,采集训练集中所有烟草样本的近红外光谱,并测量训练集中各烟草样本的目标成分含量;
(2)采用K均值聚类对训练集中各烟草样本的近红外光谱的波数进行聚类;
(3)每一次聚类完成后,利用偏最小二乘法分别建立各子类谱段与目标成分含量的关系模型,并计算各关系模型的交叉验证均方根误差(即RootMeanSquareErrorforCross-Validation,RMSECV);
(4)以各关系模型对应的交叉验证均方根误差之和最小的聚类数作为最优聚类数,并将最优聚类数对应的各关系模型进行加权求和,得到全谱模型;
(5)采集测试集中各烟草样本的近红外光谱,并依据全谱模型,得到测试集中各烟草样本的目标成分含量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江中烟工业有限责任公司,未经浙江中烟工业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510508335.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用