[发明专利]一种基因数据集整合分析方法有效
申请号: | 201811522403.7 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109686399B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 黄海辉;戴经国;梁勇;陈燕琴 | 申请(专利权)人: | 韶关学院 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B50/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;麦小婵 |
地址: | 512005 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 数据 整合 分析 方法 | ||
本发明公开了一种基因数据集整合分析方法,至少包括以下步骤:根据超参数组和待处理基因数据集建立SSN‑IF方法模型;预设SSN‑IF方法模型中的权重向量,将权重向量值作为第一初始值建立SCAD‑Net惩罚体的线性模型;根据线性模型计算SCAD‑Net惩罚体的迭代更新算子,以计算SSN‑IF方法模型的基因回归系数和待处理基因数据集的预测模型;根据预测模型更新SSN‑IF方法模型的权重向量;将更新后的权重向量作为第一初始值;重复上述的计算步骤,以得到最终的基因回归系数和待处理基因数据集的预测模型。本发明提供一种基因数据集整合分析方法,能够有效地提高对基因数据集整合分析的准确性,从而能够准确地选择出与表现型相关的基因,进而有利于对疾病的研究。
技术领域
本发明涉及生物医学数据分析技术领域,尤其涉及一种基因数据集整合分析方法。
背景技术
如何从基因组学数据中精确选择出与表现型(phenotype)相关的基因标记物是生物信息学的热点问题之一。一个典型的基因组学数据具有维数过高、样本量很小以及高噪音等特点,针对这样的高维小样本及高噪音数据,正则化方法可以剔除数据集中冗余和噪声特征,得到一个精简且判别能力更强的特征子集,从而避免数据挖掘和机器学习过程中的“过拟合”和“维数灾难”问题,提高模型的泛化能力、可解释性和稳定性,减少数据的采集量和存储量,节省模型训练和预测时间。
目前,现有技术中基于正则化方法的标记物选择研究十分之多,但是真正被加以利用标记物却十分之少。研究中的样本数量小是造成这种状况的重要原因,因为基于小样本所得出的结论往往复现性较差且不可靠。合并各研究的数据集进行统合分析(meta-analysis)是解决这一问题的重要方案,而由于批次效应的存在,使得各研究的数据集并不能直接简单合并使用。大量旨在消除批次效应,以整合数据的方法被提出来。然而鉴于批次效应的复杂来源,其并不能被完全消除甚至会加入新的系统性误差,且基因数据集的高噪音高维小样本等性质,使得合并数据集中交织着不同程度噪音及批次效应的样本,直接使用这些通过数据合并方法得到的数据经常会出现统计效度问题。
发明内容
本发明实施例提供一种基因数据集整合分析方法,能够有效地提高基因整合分析的准确性,从而能够有效地选择出与表现型相关的基因,进而有利于对疾病的研究。
为解决上述问题,本发明实施例提供了一种基因数据集整合分析方法,至少包括以下步骤:
S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型;其中所述SSN-IF方法模型包括自步学习正则化函数和SCAD-Net惩罚体;
S2、预设SSN-IF方法模型中的权重向量,将所述权重向量值作为第一初始值;
S3、根据所述第一初始值,建立所述SCAD-Net惩罚体的线性模型;
S4、根据所述线性模型计算所述SCAD-Net惩罚体的迭代更新算子;
S5、根据所述迭代更新算子,计算所述SSN-IF方法模型的基因回归系数和所述待处理基因数据集的预测模型;
S6、根据所述预测模型更新所述SSN-IF方法模型的权重向量,将所述更新后的权重向量作为第一初始值;
S7、重复步骤S3-S6,直至计算得到的所述基因回归系数收敛,得到最终的基因回归系数和最终的所述待处理基因数据集的预测模型;
S8、根据所述最终的基因回归系数和所述待处理基因数据集的预测模型,得到所述待处理基因数据集中与表现型相关的基因。
进一步地,所述在步骤S1、根据超参数组和待处理基因数据集建立SSN-IF方法模型之前,还包括步骤:
获取基因数据及基因调控网络,根据所述基因调控网将所述基因数据进行生物网络处理,得到待处理基因数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于韶关学院,未经韶关学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811522403.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置