[发明专利]一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质有效
申请号: | 202110196365.6 | 申请日: | 2021-02-22 |
公开(公告)号: | CN112926640B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 董祥军;胡艳羽 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F18/24 | 分类号: | G06F18/24;G06N3/08 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 阶段 深度 特征 选择 癌症 基因 分类 方法 设备 存储 介质 | ||
1.一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,包括步骤如下:
A、训练癌症基因分类模型
(1)获取训练数据
第一阶段:集成三种特征选择算法进行全面特征选择,得到特征子集;
第二阶段:使用非监督神经网络获得特征子集最佳表示;
(2)将特征子集最佳表示分为训练集和测试集,输入癌症基因分类模型中进行训练;
B、癌症基因分类
将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型,实现癌症基因分类,判断是否为癌症基因;
基于boosting集成特征选择方法,集成三种特征选择算法,实现全面特征选择,三种特征选择算法包括方差分析、RReliefF算法和随机森林算法;全面特征选择的实现过程如下:
(1.1)通过方差分析及RReliefF算法对原始数据进行特征选择,得到候选特征子集;
(1.2)使用随机森林算法根据特征重要性对候选特征子集进行排序,选择出所需要的特征子集。
2.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,原始数据是指癌症微阵列数据。
3.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤B中,检测癌症基因数据进行预处理的过程为:去掉待检测癌症基因数据中的空值及非数值型数据后,通过所述第一阶段及第二阶段的处理得到特征子集最佳表示,将特征子集输入训练好的癌症基因分类模型。
4.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤(1.1)的具体实现步骤包括:
a、设置方差分析中参数p,p是指设置的特征方差阈值,通过方差计算公式(Ⅰ)进行一轮特征选择,求出每一个特征的特征方差,选择出特征方差高于p的特征;
Var(x)=p(1-p) (Ⅰ)
式(Ⅰ)中,Var(x)代表特征x的方差值;
b、根据RReliefF算法中不同的权重W来确定候选特征子集;
设置权重阈值W,根据以下规则计算权重:
从所有样本中随机选出一个样本R,通过对特征之间距离计算,分别寻找样本R同类与异类中的最近样本,得到特征权重,RReliefF算法通过样概率定义模拟样本之间的绝对距离,特征权重计算公式如式(II)所示:
式(II)中,W[A]是指特征A的权重,PdiffA是指特征A在所有样本中对应概率值,如式(Ⅲ)所示,PdiffC表示对特征A在所有样本中对应的预测概率值,如式(Ⅳ)所示,PdiffC|diffA表示在已知特征A在样本中具体概率时,预测结果为diffC的概率值,如式(Ⅴ)所示,NSs是指最近样本,并且DNSs代表diffC和它的NSs,PdiffC|diffA、PdiffA、PdiffC的定义如式(Ⅲ)、(Ⅳ)、(Ⅴ)所示:
PdiffA=P(diffA|NSs) (Ⅲ)
PdiffC=P(diffC|NSs) (Ⅳ)
PdiffC|diffA=P(diffC|DNSs) (Ⅴ)
求取得到所有特征的权重。
5.根据权利要求4所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,p=0.8。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110196365.6/1.html,转载请声明来源钻瓜专利网。