[发明专利]基于单变量和对变量的标志物筛选方法有效
申请号: | 201810293444.7 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108537003B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 林晓惠;宋欢欢;张艳慧 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B50/00 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 变量 标志 筛选 方法 | ||
本发明属于生物数据分析技术领域,涉及一种基于单变量和对变量的标志物筛选方法。生物数据具有维度高、样本量小的特点,所以利用简单且准确的决策规则评价、选择变量,从而进行分类与预测是生物数据分析的重要任务。为综合评价变量,本发明使用信息增益计算单变量的最佳分裂点。利用最佳分裂点构造新的变量,与其对应的原始变量建立对变量。同时,原始空间的变量也通过两两组合生成变量对。然后,根据两个评分准则对所有的对变量进行评分,将其按照得分由大到小排序,选择得分最高且不重叠的k对变量,构造融合分类器。该方法的核心技术利用单变量构造新的对变量,可以使用相同的准则评估单变量与对变量的分类性能,提供切实有效的数据处理方法。
技术领域
本发明属于生物数据分析技术领域,涉及一种基于单变量和对变量的标志物筛选方法,是一种同时衡量单变量和对变量的特征选择与分类方法。
背景技术
生物数据通常具有维度高、样本量小的特点,所以利用简单且准确的决策规则评价、选择变量,从而进行分类与预测是生物数据分析的重要任务,对疾病诊断、药物疗效、预后等研究具有重要意义。
单分子标志物经常作为临床诊断和预后判断的重要指标,例如甲胎蛋白(AFP)已经被认为是肝癌诊断的首选血清肿瘤标记物。然而,分子个体标志物通常存在假阳性高的问题。因此,确定与疾病发生发展密切相关的生物标志物,降低假阳性,对疾病诊断、预后以及疾病机理的研究十分重要。
k-TSP算法根据一对变量的相对含量在不同样本组中的差异评价特征对的重要性,选择得分最高的k对变量建立分类模型。该算法只选择少数几对变量,并通过它们的相对含量对样本进行预测,易获得生物学解释且分类性能与支持向量机和随机森林相当,在基因组学和代谢组学等组学数据分析中应用广泛。同时,k-TSP算法在处理白血病、肺癌、前列腺癌、乳腺癌、淋巴癌、膀胱癌等多种癌症中均展现出其良好的性能。
本发明提出了一种同时评价单变量与对变量的特征选择与分类方法。该方法使用信息增益计算单变量的最佳分裂点。利用最佳分裂点构造新的变量,与其对应的原始变量建立对变量。同时,原始变量也通过两两组合生成对变量。然后,根据k-TSP算法的两个评分准则对所有的对变量进行评分,将其按照得分由大到小排序,选择得分最高且不重叠的k对变量,构造融合分类器。
发明内容
本发明的目的是建立一种同时评价单变量与对变量的特征选择与分类方法。该方法的核心技术利用单变量构造新的对变量,可以使用相同的准则评估单变量与对变量的分类性能。
为了实现上述目标,本发明采用的技术方案如下:
一种基于单变量和对变量的标志物筛选方法,步骤如下:
(1)获得单变量的最佳分裂点:令F={f1,f2,...,fm}代表变量集合,m是变量数,X={x1,x2,…,xn}代表样本集合,n是样本数,C={c1,c2}代表类标集合,Y={y1,y2...,yn}是n个样本的类标向量,其中yi∈C是第i个样本的类标;首先将变量fi按照变量在样本上的取值递增顺序排列;每对相邻值的中点作为可能的分裂点,n个样本需计算n-1个可能的分裂点;然后,扫描可能的分裂点,对于每一个可能的分裂点,计算信息增益,信息增益最大的分裂点就是变量fi最佳分裂点;公式如下:
sp*=argmaxIG(X,spk),k=1,2,...,n-1 (2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810293444.7/2.html,转载请声明来源钻瓜专利网。