[发明专利]基于集成极端学习机的肿瘤基因表达谱数据识别方法在审

专利信息
申请号: 201410773130.9 申请日: 2014-12-15
公开(公告)号: CN104463251A 公开(公告)日: 2015-03-25
发明(设计)人: 凌青华;韩飞;叶松林;杨春;崔宝祥 申请(专利权)人: 江苏科技大学
主分类号: G06K9/66 分类号: G06K9/66;G06F19/24
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 212003*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 集成 极端 学习机 肿瘤 基因 表达 数据 识别 方法
【说明书】:

技术领域

发明属于肿瘤基因表达谱数据的计算机分析技术的应用领域,具体涉及一种基于集成极端学习机的肿瘤基因表达谱数据识别方法。

背景技术

在生命科学研究中,DNA微阵列技术为生物学和医学研究带来前所未有的机遇的同时,其所产生的复杂的基因表达谱数据却对现有的数据分析和处理方法提出了巨大的挑战。首先,基因表达谱数据具有很高的维度(基因),而且这些基因维之间又有非常复杂的关系。第二,基因表达谱数据具有较少的样本,这与巨大的基因数目构成不平衡矛盾。第三,基因表达谱数据天生具有高噪声高变异等数据分析难点。第四,基因表达谱数据中大量的有用信息被隐藏。传统的计算机分析方法对基因表达谱数据的处理已经不能满足实际需要。如何利用计算机数据分析技术快速、准确地对基因表达谱数据所属类别(正常或异常,肿瘤的不同亚型)进行识别,确保临床诊断更客观和准确,已成为肿瘤基因表达谱数据分析的关键技术。

近年来国内外在利用机器学习方法对基因表达谱肿瘤进行识别的研究非常活跃,主要包含:(1)运用基于反向传播及相关梯度算法(BP:Backpropagation)的神经网络对基因表达谱肿瘤进行识别。例如,J.Khan等(Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks)用基于神经网络的模型对小圆蓝细胞肿瘤(SRBCT)的四个亚型进行有效地识别,并识别出最为有效的基因子集。但BP及相关的梯度算法都存在收敛速度慢容易陷入局部极值等缺陷,并且网络结构难以确定,从而导致肿瘤识别精度不高且时间开销大。(2)运用支撑向量机(SVM:support vector machine)对基因表达谱肿瘤进行识别。例如,T.S.Fruey等(SVM classification and validation of cancer tissue samples using microarray expression data)用标准SVM对卵巢癌(Ovarian)、白血病(ALL/AML)和结肠癌(Colon)三个数据集中样本类别进行识别,均获得较高的识别率。虽然SVM适用于高维小样本数据,但是该方法仅擅长于处理两类分类问题,在多类分类问题上效果不太理想。此外,SVM中参数的选取比较费时,并且目前还没有有效的理论支持SVM中参数的选取。(3)运用极端学习机(ELM:extreme learning machine)对基因表达谱肿瘤进行识别。例如,F.Han等(A Novel Strategy for Gene Selection of Microarray Data Based on Gene-to-Class Sensitivity Information)在基因选择的基础上将ELM用于肿瘤识别,在六个基因表达谱数据集上(Leukemia,Colon,SRBCT,LUNG,Brain cancer和Lymphoma)均获得了优于经典方法的识别精度。ELM以解析的方法获得单隐层前馈神经网络唯一的权值解,并从理论上证明了此解能够保证最小训练误差和最小范数输出权值,因此该算法能够以极短的时间获得最优的泛化性能,这是其它学习算法无法比拟的。ELM能为各种应用提供了一个统一的平台,能够逼近任意的连续函数,能对任意的不相交的区域进行分类。虽然一些SVM(如MOC-LS-SVM]、基于贝叶斯规则的SVM)能够用于解决多分类问题,但是它们增大了计算时间和复杂度。大量的实验表明,ELM具有比SVM更优的可测性、相近的(回归和两类分类问题)或更优的(多分类问题)泛化性能和更快的收敛速度。显然,为了提高基因表达谱数据的处理速度和精度,ELM是个合理的选择。另一方面,因ELM随机选择单隐层前馈网络的输入层权值而导致网络隐节点数目偏多、输出层权值范数和隐层输出矩阵条件数增大,从而影响ELM在测试集上的响应时间和预测性能。

对上述研究进行分析可以发现,单个分类器虽然可以用来进行基因表达谱肿瘤识别,但是其识别性能仍有较大的提升空间。集成分类器能够很好地弥补单一分类器存在的不足。将几个单分类器共同对某个样本进行分类,并且将它们的识别结果通过某种集成规则集成在一起,那么就可以有效地提高肿瘤识别精度。集成学习可以有效地发挥各个成员分类器的性能,充分地发挥它们间的互补性,从而改善系统的泛化性能、分类识别率和稳定性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410773130.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top