[发明专利]同源物质的快速识别方法在审

专利信息
申请号: 201510654599.5 申请日: 2015-10-10
公开(公告)号: CN105223140A 公开(公告)日: 2016-01-06
发明(设计)人: 白鹏利;王钧;尹焕才;田玉冰;姚文明;高静 申请(专利权)人: 中国科学院苏州生物医学工程技术研究所
主分类号: G01N21/25 分类号: G01N21/25
代理公司: 北京远大卓悦知识产权代理事务所(普通合伙) 11369 代理人: 史霞
地址: 215163 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 同源 物质 快速 识别 方法
【说明书】:

技术领域

发明涉及化学计量学实验数据处理技术领域,特别是一种同源物质的快速识别方法。

背景技术

偏最小二乘法识别是基于因子分析的多元校正分析方法,在在传统的多元线性回归的基础上发展起来的一种线性识别回归的方法,有很强的抗干扰的能力,是应用最广泛的定性识别的模型。目前,光谱学结合PLSDA对同源性物质识别以及掺假识别的研究比较热门,但是关于PLSDA阈值的研究相对甚少。ChenYi等在建立PLSDA模型识别灵芝提取物溯源分析时,提出以±0.25作为界限值,以SNV结合2阶导数处理,识别率达到100%。邵平,王钧等在建立PLSDA模型识别灵芝提取物和云芝提取物时,提出以±0.5作为界限值,尽管其识别率也达到100%,但是在大数量样本的情况下,信号的识别的正确率就会降低。

由于化学计量学结合光谱分析进行同源物质溯源以及掺假识别分析是大量数据的概率分析,数据量的多少对于实验的结果的精确度有着至关重要的因素,因此急需一种能快速对同源性物质进行识别以及掺假识别的方法。

发明内容

针对上述技术问题,本发明中提出了一种同源物质的快速识别方法,通过本发明的方法可以确定PLSDA的阈值,本发明通过正态分布3σ原则来优化选取PLSDA阈值区间的,正态分布又称高斯分布,是一个在数学、物理以及工程等领域都非常重要的概率分布,在统计学上的许多方面有着重要的意义。正态分布是概率性分布,在正态曲线下,根据3σ原则:P(μ-σ<X≤μ+σ)=68.3%,P(μ-2σ<X≤μ+2σ)=95.4%,P(μ-3σ<X≤μ+3σ)=99.7%,由此可见通过正态分布3σ原则来选取PLSDA阈值区间具有超高的识别率。

本发明的关键在于通过对PLSDA数据的进一步处理,提出一种新的确定PLSDA阈值的方法,为实际应用提供了更可靠的数据。

本发明解决了同源性物质不易识别且识别率低、识别速度慢等技术问题,同时解决了物质的掺假识别,从而可以提高模型的识别度以及方便服务在实际生产应用中。

为了实现根据本发明的这些目的和其它优点,提供了一种同源物质的快速识别方法,包括以下步骤:

步骤1)分别采集属于同源物质a的若干个样品的光谱信号;

步骤2)对每个样品的所述光谱信号进行预处理,得到一组相应的光谱数据;

步骤3)根据所述光谱数据,在定性识别模型中建立PLSDA分析模型,得到每个样品在PLSDA分析模型对应的预测值A;

步骤4)求解所有所述预测值A的平均值μ和均方差σ,通过正态分布3σ原则确定该同源物质a在PLSDA分析模型中的初步阈值区间;

步骤5)逐步改变PLSDA分析模型所选用的主成分因子数i,优化所述初步阈值区间的范围,直至得到识别正确率最高的预测值阈值区间,其中,i=1…10;

步骤6)对任意物质b进行步骤1)和2)的处理后,分析该任意物质b在PLSDA分析模型中对应的预测值B,若预测值B处于所述预测值阈值区间内,则该任意物质b与所述物质a为同源物质,否则不属于同源物质。

优选的,所述光谱信号可以是近红外光谱和拉曼光谱中的一种。

优选的,所述步骤2)中,在建立PLSDA模型前,所述预处理方法包括:对光谱信号进行矢量归一化处理和多元散射校正处理。

优选的,所述步骤4)中,所述初步阈值区间为(μ-3σ,μ+3σ),其中,μ为所有所述预测值A的平均值,σ为所有所述预测值A的均方差。

优选的,在建立PLSDA模型的过程中,运用为防止模型过拟合现象发生的“剔一”交叉验证法对PLSDA模型进行验证。

优选的,所述步骤5)中,分别在每个所述主成分因子数i对应的PLSDA分析模型中求解所有所述预测值Ai的平均值μi和均方差σi,得到该主成分因子数下同源样品对应的初步阈值区间为(μi-3σi,μi+3σi),其中,Ai为样品在主成分因子为i的PLSDA分析模型对应的预测值,μi为所有所述预测值Ai的平均值,σi为所有所述预测值Ai的均方差。

优选的,在所述样品外部选取一组同源物质a的样本,分别将该组样本对每个所述主成分因子数i对应的初步阈值区间为(μi-3σi,μi+3σi)进行识别正确率的验证,选取识别正确率最高的初步阈值区间(μi-3σi,μi+3σi)对应的主成分因子数i作为最优主成分因子数,同时,该初步阈值区间(μi-3σi,μi+3σi)即为识别正确率最高的预测值阈值区间。

本发明至少包括以下有益效果:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院苏州生物医学工程技术研究所,未经中国科学院苏州生物医学工程技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510654599.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top