[发明专利]一种基于测序和数据分析的肥胖风险预测装置的预测方法有效
申请号: | 202010810113.3 | 申请日: | 2020-08-13 |
公开(公告)号: | CN112086130B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 李健;杨广霞;许瑶坤;况迎辉;刘安娜 | 申请(专利权)人: | 东南大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16H50/30;G16H50/70;G06K9/62;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 分析 肥胖 风险 预测 装置 方法 | ||
1.一种基于测序和数据分析的肥胖风险预测装置的预测方法,其特征在于,基于测序和数据分析的肥胖风险预测装置包括数据处理单元、数据可视化单元、肥胖分类单元、基因位点预测单元和位点评分单元;
数据处理单元,用于对原始SNP样本数据进行处理;
数据可视化单元,用于对所有数据进行可视化处理,得到样本的身高、体重、腰围及BMI指数之间的关系;
肥胖分类单元,通过K-MEANS算法对肥胖进行分类,确定不同基因对不同肥胖类型的影响;
基因位点预测单元,通过浅层神经网络对基因位点信息、性别信息及身高体重进行回归性分析,预测基因位点对身高体重影响程度;
位点评分单元,基于集成学习模型,利用SNPs的信息和个体的生理信息对肥胖风险进行评估;
预测方法包括如下步骤:
(1)对原始SNP样本数据进行处理;其中对原始SNP样本数据进行处理的具体步骤如下:
(1.1)将所有SNP信息文件转化为csv文件;
(1.2)进行数据清洗,去除不相关的位点信息数据和极端数据;
(1.3)将所有数据进行可视化处理;
(2)创建初步模型,包括对肥胖进行分类和对身高体重进行回归性分析;其中创建初步模型的具体步骤如下:
(2.1)利用的是K-MEANS算法对肥胖进行分类;
(2.2)利用浅层神经网络对八个基因位点信息和性别信息与身高体重进行回归性分析,
z=wx+b
式中:z是线性层输出;w为模型参数;x为输入数据;b为偏置项;
y=激活函数(Z)
式中:Z为线性层输出;y是逻辑斯蒂层输出,值域[0,1];
在逻辑回归过程中,由于梯度下降算法中每一次迭代的时候w参数的值是根据
w=w-学习率*导数
进行设置得,其中学习率是手动设置的参数,这时候如果导数即斜率过小,会导致梯度下降的的步数也很小,影响效率;式中:w是模型参数;学习率为模型超参数;ReLU激活函数定义为:
为了保证结果地准确性,引入损失函数对结果进行修正,损失函数采用的均方差函数(MSE):
式中:y是真值;y’是预测值;
(3)创建位点评分模型,所述位点评分模型包括Logistic Regression模型、SVM模型、Decision Tree模型和Random Forest模型;在机器学习任务中,将原始数据集分为三部分:训练集、验证集和测试集;
(4)利用数据库的数据对模型进行优化;其中利用数据库的数据对模型进行优化的具体步骤如下:
(4.1)引入基因与生理信息数据库;获得测试者生理信息,包括:性别,身高,体重,腰围,甘油三脂,舒张压,收缩压,空腹血糖值,总胆固醇值;获取SNPs位点数据;
(4.2)基因位点即SNPs优化,数据集按照BMI的值被划分成两个区域,经过筛选后获得16个与肥胖相关的位点;
(4.3)优化模型参数,数据重新输入四种机器学习模型,将训练集数据输入模型中,训练集和测试集的比率是9:1;
(5)对优化模型进行分析;其中对优化模型进行分析的具体步骤如下:
(5.1)以Logistic Regression建立的模型进行分析,Logistic Regression的表达式是:
式中:w为模型参数;x为输入数据即基因位点信息和生理数据;b为偏置项;
(5.2)在训练完成之后提取w的值,根据系数给出各个特征的重要程度,并定义一个人肥胖的风险值R:
R=-(wx+b)
式中:R为肥胖风险值;w为模型参数;x为输入数据即基因位点信息和生理数据;b为偏置项;
在Logistic Regression这个模型中,R的值越靠近负无穷,表示这个人被判别为没有肥胖风险的可能性就越大,相反如果一个人的R值逐渐接近正无穷,表示这个人未来BMI偏大的可能性越大;
(5.3)在测试集上验证R值的准确性;
(6)引入集成学习的肥胖预测模型;其中引入集成学习的肥胖预测模型的具体步骤如下:
(6.1)第一层分类器:利用SNPs的信息和测试者的生理信息分别构建多个弱分类器,采用的多种模型包括SVM、Logistic Regression及Random Forest,同时加入了新的模型AdaBoost和Gradient Boost,输出是对BMI分型的预测;
(6.2)第二层分类器:得到第一层的输出肥胖的分类即BMI Category之后,将其作为输入喂入第二层分类器XGBoost,第二层的作用是根据第一层分类器已经提取出来的特征对肥胖类型进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010810113.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置