[发明专利]SNP致病因素与疾病关联关系模型建立方法有效
申请号: | 201910539328.3 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110459266B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 张军英;朱皓晨 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B40/20 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 李霞 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | snp 致病 因素 疾病 关联 关系 模型 建立 方法 | ||
1.一种SNP致病因素与疾病关联关系模型建立方法,其特征在于,所述SNP致病因素与疾病关联关系模型建立方法包括:
步骤一,采集当前SNP致病因素对应的样本数据集,所述SNP为单核苷酸多态性;
步骤二,依据初始值对样本数据集进行绝对划分;
步骤三,基于机器学习方法的SNP致病因素与疾病关联关系建模;
步骤四,建模结果准确性评价;
步骤五,确定SNP致病因素与疾病的关联关系模型;
所述SNP致病因素与疾病关联关系模型建立方法具体包括:
输入为当前SNP致病因素对应的样本数据组成的k*X的矩阵;k为致病因素中SNP位点的个数,即致病因素规模,X为样本个数;样本的类别向量1*X维;当前SNP致病因素与疾病的初始化关联关系模型IM;
输出为当前SNP致病因素与疾病的关联关系模型PM;
算法步骤如下:
1)对于输入的k*X的样本数据集,进行t次有放回的随机重采样bootstrap,产生t个相同规模的重采样数据集;
2)
对于重采样数据集Ti,建立当前SNP致病因素其与疾病的初始关联关系模型IMi:其中i=1,2,3…,t;
3)对在当前SNP致病因素上t次建模的结果进行平均,得到当前SNP致病因素与疾病的初始关联关系模型IM;
4)
对第i个重采样数据集Ti依据IM中的致病概率值,对样本数据集进行划分,得到划分后的数据集Hi;
5)用划分后的数据集,对在当前SNP致病因素上t次建模的结果进行平均,得到当前输出的关联关系模型PM;
6)判定当前关联关系模型PM的收敛性,判定规则如下:
对于当前SNP致病因素,若(PM-IM)/3k≤threshold,即当前关联关系模型PM中各个状态组合上的平均变化值不超过设定阈值,threshold为0.005,则认为过程收敛,当前关联关系模型PM为最终所求关联关系模型,输出即可;
否则,利用当前PM的值将IM更新,即IM=PM,转4);
步骤4)-步骤6)不断重复直到收敛,即获得了该SNP致病因素与疾病的关联关系模型PM;对每个SNP致病因重复步骤1)-步骤6),获得了每个SNP致病因素与疾病的关联关系模型;
所述2)进一步包括:
通过CART决策树算法训练一个预测模型;
将当前SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij(j=1,2,...,3k);则当前SNP致病因素与疾病的初始化关联关系模型为IMi=(Pi1,Pi2,...,Pij);
所述4)进一步包括:
用第i个划分后的数据集Hi,分别通过以下步骤建立当前SNP致病因素与疾病的关联关系模型PMi:通过CART决策树算法训练一个预测模型;将当前这个k-way的SNP致病因素的3k种SNP状态组合中的每一个Sj作为测试数据输入模型,分别记录模型的输出Pij;得到当前SNP致病因素与疾病的关联关系模型PMi:PMi=(Pi1,Pi1,...,Pij)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910539328.3/1.html,转载请声明来源钻瓜专利网。