[发明专利]一种质谱数据分析方法有效
申请号: | 201710674793.9 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107818329B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王乾;胡畅 | 申请(专利权)人: | 亿纳谱(浙江)生物科技有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2413 |
代理公司: | 上海世圆知识产权代理有限公司 31320 | 代理人: | 陈颖洁;王佳妮 |
地址: | 310053 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 种质 数据 分析 方法 | ||
本发明提供一种质谱数据分析方法,包括样本数据采集步骤、样本数据预处理步骤、数据模型构建及交叉验证步骤、数据模型优化步骤以及样本组别判断步骤。
技术领域
本发明涉及机器学习应用领域,特别涉及一种质谱数据分析方法。
背景技术
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人组的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,可应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序等诸多领域。机器学习算法是一组从已知数据中自动分析及获得规律并利用规律对未知数据进行预测的算法。
质谱数据,是使用专门的仪器使样品发生电离,生成不同荷质比的带电荷离子,再利用外加电场使得不同荷质比的离子在空间上或时间上分离,进而得到质谱数据。不同质荷比的离子经质量分析器分开后,被检测并记录下来,经计算机处理后生成质谱图。
在生物、化学及医学领域,经常会涉及到根据成分对体液样本进行的分类问题,一般来说,技术人员大多使用单独分析、分别对比的方法,这种方法的优势在于,样品成分清楚,分类准确;其不足之处在于,当需要分类的体液样本种类较多时,需要消耗大量时间和大量资源,人力成本较高。如何根据已知类别的体液样本,推断出新的体液样本的类别,一直是科研人员的重要研究课题。
以医学领域为例,目前已知的某些疾病患者的体液内往往会存在一些相同的特殊成分,这些成分可能是导致患者患有同类疾病的病因,也可能是因某类疾病的表现特征。在临床上,如果查到某患者体液内存在某一类成分,就可以将该患者与某一种或某一类疾病建立关联,为临床诊断提供数据支持。由于人体是非常复杂的有机体,疾病的诊断和治疗方案的选择都需要专业医务人员针对每一个体海量数据做出判断,诊断效率较低,人力成本较高。当需要做检查的患者人数较多时,患者需要长时间排队,医生连续工作也会比较辛苦,每个病人的诊疗时间较短,很容易出现误诊的情况。因此,在临床医学中,需要有一种能同时可以对大量体液样本作出成分分析的医学设备,可以根据已知的健康人群和患者的大量体液样本,在短时间内检测和分析大量未知样本中是否含有某些特定成分,从而辅助医务人员可以更加方便准确地作出诊断。
发明内容
本发明的目的在于:提供一种质谱数据分析方法,以解决现有技术中存在的当需要分类的体液样本数量较多时,需要消耗大量时间和大量资源,人力成本较高的技术问题。
为解决上述技术问题,本发明提供一种质谱数据分析方法,包括如下步骤:样本数据采集步骤,用以采集两个以上体液样本的质谱数据并根据所述质谱数据生成质谱图;所述体液样本包括两个以上训练样本及至少一个测试样本;所述训练样本被分成两个以上组别,同一组别的训练样本标识有相同的组别标签;样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本及所述测试样本的标准化质谱数据;数据模型构建及交叉验证步骤,用以利用所述训练样本的标准化质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的标准化质谱数据对所述初级数据模型进行至少一次的交叉验证处理;数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型;以及样本组别判断步骤,用以利用所述测试样本的标准化质谱数据及所述优化数据模型获取所述测试样本的组别标签。
进一步地,所述样本数据采集步骤,具体包括如下步骤:获取两个以上体液样本;将全部所述体液样本在一平板上排列成矩阵;以及利用质谱法采集所述体液样本的质谱数据并生成质谱图;每一体液样本采集至少一组质谱数据。
进一步地,所述测试样本位于所述平板的中部,所述训练样本围绕所述测试样本;所述平板包括但不限于基质金属板;任意两个相邻的训练样本的组别标签皆不同;任意两个相邻体液样本的距离大于或等于2mm,且小于或等于5mm。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿纳谱(浙江)生物科技有限公司,未经亿纳谱(浙江)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710674793.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置