[发明专利]基于Matlab的偏最小二乘法对癌症病人光谱学检测数据的预测无效
申请号: | 201110104734.0 | 申请日: | 2011-04-26 |
公开(公告)号: | CN102760197A | 公开(公告)日: | 2012-10-31 |
发明(设计)人: | 曾红娟;陈启宏;王鑫 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 matlab 最小二乘法 癌症病人 光谱 检测 数据 预测 | ||
技术领域
本发明是一种统计学上的预测方法,具体的是通过Matlab对癌症病人紫外检测数据进行预测的方法,其方法属于生物统计学领域。
背景知识
目前,在癌症早期诊断中应用最成熟的方法是影像学方法,包括:X光片,CT,MR,血管照影及介入性放射学等,这种影像学方法需要肿瘤组织大小必须具备一定的尺寸才能有效的被检测到,这是一类组织级别水平上的检测。另外,作为辅助性检查的方法就是肿瘤标志物检测,虽然属于分子级别水平,但是由于肿瘤标志物的非单一性对应,使得这种方法的特异性不高。因此,需要一种能在分子级别水平上实现癌症早期诊断的更为有效的方法,本发明提供的血清谱学检查就是能在分子级别水平上实现癌症早期诊断的新方法。但是,由于人血清中分子成分的复杂性,以及需要从多份样品中提取信息,使得需要一个很好的算法模型来进行数据分析和处理,以达到对癌症病人进行预测的目的。对于这种存在多重相关性的系统,各个选取指标中存在无法预知的关系,直接导致系统中极大的噪声和不确定性。通过对普通多元回归算法和偏最小二乘法的比较,我们发现利用偏最小二乘法可从所有指标中选取同因变量关系最密切的指标,通过降维,从而降低噪声,克服多重相关性的不良作用。这些特点使得偏最小二乘法在应对多重相关性和样本点过少的问题上优于其它普通回归算法。为此,我们采用偏最小二乘法来对癌症病人的血清光谱进行分析和处理,达到在分子级别水平上实现癌症早期诊断的目的。
发明内容
本发明是基于Matlab的偏最小二乘回归法对癌症病人进行光谱学检测的预测。它的流程如图1所示。
本发明首先需要采集正常人和癌症病人静脉血样,并对血样进行离心处理,然后对离心处理后的血清用不同pH的缓冲溶液进行稀释;采用光谱学仪器对不同pH的血清样品进行光谱检测,以获得它们的光谱检测数据。
本发明把批量检测的光谱数据输入Matlab并将其转换为ASCII码文件通过最小二乘回归法对获得的光谱数据进行预处理和进一步优化,最后建立预测模型和对数据进行预测。
本发明对获得的光谱数据进行预处理的过程如下:
1、建立一种基于循环方式的一次性选择数据并批量输入工具;
2、建立一种自动识别文档中紫外检测数据内容,去除多余文字,并建立ASCII文档的工具;
3、建立二阶导数谱模型并自动选取图谱上的特殊值。
本发明对预处理的结果进一步优化的过程如下:
1、对数据进行标准方差和T检验,输出检验报告用于判断数据的稳定性;
其标准方差公式如式(1):
标准方差={[∑(Xn-X)2]/n} (1)
其中Xn为每个样本的特殊值,X为所有样本的平均值。
令每个样本特殊值为[X1,X2,X3...Xn],平均值为X,代入式(1)进行运算,就能够获得标准方差。根据标准方差来判断样本中个数据的差异大小,如果差异数值越大波动越大,就越不稳定;
2、T分布假设检验是基于μ(总体平均数)和σ(总体标准差)来展开,它们决定了正态分布的位置和形态。在正态分布总体中以固定n抽取若干个样本时(一般光谱检测试验n≤200),所以,样本均数的分布仍然服从正态分布,即N(μ,σ)。由于在实际工作中,往往σ是未知的,常用样本标准差作为σ的估计值来进行检验。也就是说,T分布可检验数据之间差异是否显著,小概率事件发生的概率高低,因此T分布值可以直观地知晓数据的稳定性。
本发明建立偏最小二乘回归分析法预测模型并对数据进行预测的过程如下:
偏最小二乘回归分析法建立的模型为双线模型,其中为包含外部块(X独立模块和Y独立模块),以及两者之间的内部块(X和Y的联系模块),在本发明中的采用模型对X的潜变量进行了修改,使其与Y的协方差达到最大,即把特征值近于零的数据删除。程序实现过程如下:
[10]确立回归模型为Y=XB;其中B=W(PTW)-1QT(W为权重,P为X的载荷矩阵,Q为Y的载荷矩阵);
[20]Y=UQT+F=uaqTa;(U为Y的得分矩阵,ua为Y的得分向量,qa为荷载向量,F为残差);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110104734.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种污水处理方法
- 下一篇:一种动力电缆密闭仓室的非常规装卸方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用