[发明专利]一种数据非依赖采集质谱数据格式的转化方法及应用在审
申请号: | 202111225265.8 | 申请日: | 2021-10-21 |
公开(公告)号: | CN113836086A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 郭天南;栾钟治;张芳菲;王群莹 | 申请(专利权)人: | 西湖大学 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/174;G16B50/00 |
代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 倪杨 |
地址: | 310024 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 依赖 采集 数据格式 转化 方法 应用 | ||
本申请提出了一种数据非依赖采集质谱数据格式的转换方法及应用,包括以下步骤:读取质谱张量数据格式文件,其中所述质谱张量数据格式文件为由碎片离子所对应的前体离子索引、碎片离子质荷比和循环次数索引三个维度构成的三维张量数组;解析所述质谱张量数据格式文件得到质荷比数组和对应的强度数组;还原所述质荷比数组内的质荷比索引得到质荷比数值,得到质荷比‑强度数组;填充标准格式文件的缺失信息,所述缺失信息和所述质荷比‑强度数组组合得到标准格式文件,可以实现质谱张量数据格式(DIAT)转换为标准数据格式的效果,且转换得到的标准数据格式的文件大小被缩小的目的。
技术领域
本申请涉及质谱数据领域,特别是涉及数据非依赖采集质谱数据格式的转换方法及应用。
背景技术
质谱在组学的研究中起到非常重要的作用,质谱是一种带电原子、分子或分子碎片按质量的大小顺序排列的图像,其是通过首先对被分析的样品进行离子化后利用不同离子在电场或磁场的运动行为的不同,把离子按质荷比分开而得到,基于质谱技术可实现对复杂生物分子的鉴定和定量分析。
目前主流的基于质谱的组学的采集方式有多种:数据依赖性采集(DDA)、靶向监测(SRM)、数据非依赖性采集(DIA),其中数据非依赖性采集模式通过将质谱整个全扫描范围分为若干个窗口,高速、循环地对每个窗口中的所有离子进行选择、破裂以及检测,从而无遗漏、无差异地获得样本中所有离子的全部碎片信息,其可以产生一个永久的数字图谱来代表所有可测量的分子信号,作为生物分子组学的电子档案。若分析的样本的碎片信息,质谱数据的通量就越大,高通量大规模蛋白质组学数据集的存储对于任何AI建模都是必不可少的,相对应的,如何存储和分析高通量的质谱数据成为十分重要的问题。
为了解决高通量组学质谱数据的存储问题,本发明人针对质谱数据提供了一种新型的质谱张量数据格式(DIAT),并针对该质谱张量数据格式(DIAT)申请并获取专利号为202010144110.0的有效专利,该新型的质谱张量数据格式(DIAT)是专为大数据独立采集(DIA)组学数据AI分析而设计的,可直接与神经网络接口对接并最大限度地减少数据的存储空间。然而质谱张量数据格式(DIAT)作为一种新型的数据格式,目前还无法和标准格式进行转换,由于无法和标准格式进行转化,导致目前质谱张量数据格式(DIAT)存储的数据缺少桥接于传统肽段、蛋白鉴定搜索的流程来进行传统蛋白质组学的分析,进而限制了质谱张量数据格式(DIAT)的广泛应用,目前亟需提供实现质谱张量数据格式(DIAT)和质谱标准格式的转换方法。
发明内容
本申请实施例提供了一种数据非依赖采集质谱数据格式的转换方法及应用,使用转换流程将数据存储量小的质谱张量数据格式(DIAT)转换为传统的标准数据格式,使得其可传统的质谱分析软件进行分析处理,进而扩大质谱张量数据格式(DIAT)的应用。
第一方面,本申请实施例提供了一种数据非依赖采集质谱数据格式的转换方法,所述方法包括:S1:读取质谱张量数据格式文件,其中所述质谱张量数据格式文件为由碎片离子所对应的前体离子索引、碎片离子质荷比和循环次数索引三个维度构成的三维张量数组;S2:解析所述质谱张量数据格式文件得到质荷比数组和对应的强度数组;S3:还原所述质荷比数组内的质荷比索引得到质荷比数值,得到质荷比-强度数组;S4:填充标准格式文件的缺失信息,所述缺失信息和所述质荷比-强度数组组合得到标准格式文件。
第二方面,本申请实施例提供了一种数据非依赖采集质谱数据格式的转换装置,包括:质谱张量数据读取单元,用于读取质谱张量数据格式文件,其中所述质谱张量数据格式文件为由碎片离子所对应的前体离子索引、碎片离子质荷比和循环次数索引三个维度构成的三维张量数组;质谱张量数据解析单元,用于解析所述质谱张量数据格式文件得到质荷比数组和对应的强度数组质荷比数组处理单元,用于还原所述质荷比数组内的质荷比索引得到质荷比数值,得到质荷比-强度数组;标准格式文件生成单元,用于填充标准格式文件的缺失信息,所述缺失信息和所述质荷比-强度数组组合得到标准格式文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西湖大学,未经西湖大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111225265.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人工窖泥及其制备、养护和窖外生产方法
- 下一篇:一种污水处理系统及方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置