[发明专利]一种基因分类方法与装置有效

专利信息
申请号: 201810046229.7 申请日: 2018-01-17
公开(公告)号: CN108171012B 公开(公告)日: 2020-09-22
发明(设计)人: 孙林;刘弱南;张霄雨;孟新超;常宝方;孟玲玲;王蓝莹;陈岁岁;殷腾宇;李源 申请(专利权)人: 河南师范大学
主分类号: G16B40/00 分类号: G16B40/00
代理公司: 郑州睿信知识产权代理有限公司 41119 代理人: 吴敏
地址: 453007 *** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基因 分类 方法 装置
【说明书】:

本发明涉及一种基因分类方法与装置,将LLE算法和AP聚类算法相结合,并利用提出的混合核函数对相似性度量函数进行改进。首先,采用LLE算法将原始高维基因表达数据集映射到低维空间达到降维目的;其次,提出一种新的全局核函数为F型核函数,并将其与高斯核函数线性组合成新的混合核函数,并利用提出的混合核函数计算相似度度量,构建新的相似度矩阵S;然后通过AP聚类算法和相似度矩阵对数据进行聚类,迭代得到最终聚类结果;最后通过和其他聚类方法进行对比,验证本发明算法的有效性和准确性。

技术领域

本发明属于基因分类技术领域,具体涉及一种基因分类方法与装置。

背景技术

随着基因信息量的不断增加,如何对基因数据进行处理,从而得到有用的信息变成了难题。而数据集中通常包含大量的无关基因、冗余基因等,因此如何从海量信息库中分析并获取有效的特征基因子集,从而能够更好选出致病基因成为专家学者研究的重要课题。

聚类分析作为一种有效的数据分析方法,被广泛应用于数据挖掘、机器学习与模式识别、生物信息学等领域。聚类分析主要是将高维数据集聚为不同的类簇,使得类内距离尽可能小,类间距离尽可能大,其目的是更加有效的对高维数据进行分析,消除数据中的冗余数据,从而发现其中少部分潜在的有用数据。迄今为止,研究人员已提出许多聚类算法,如K-means、层次聚类、减法聚类、谱聚类等。大量实验已证明了上述几种聚类算法的有效性,但上述方法仍存在一些不足之处,例如需要事先确定聚类数和聚类中心,人为初始化的聚类数和聚类中心对聚类结果影响较大,不合适的聚类数和聚类中心会产生较差的聚类结果,降低聚类精度。

近邻传播(Affinity Propagation,AP)聚类算法将所有的数据点都看作是潜在的类代表点(Exemplar),不需要事先确定聚类数目,通过迭代更新每个样本点的可信度和可用度产生聚类中心,此方法克服了传统聚类方法的缺陷。但该算法仍然存在不足之处,比如偏向参数P对聚类结果影响较大、在迭代时容易陷入局部震荡等问题。针对这些问题,许多学者相继提出了一些改进的AP聚类算法。目前的AP聚类算法利用欧氏距离来计算数据点间的相似性,判断两个样本点是否属于同一聚类中心,而欧氏距离将所有的数据点同等看待,忽略了数据本身具有的结构信息,容易造成错分,降低聚类精度。基于核函数的学习方法是一种非线性的信息处理工具,在处理数据时能够保留数据的原有信息,并在处理具有非线性关系的高维复杂模式识别任务时具有很大的优越性。由于混合核函数同时具有全局核函数的泛化能力和局部核函数的学习能力,因此,考虑利用混合核函数改进AP聚类算法中的相似性度量。但针对高维数据容易引起维数灾难、已有的AP聚类方法难以对高维数据进行有效分类等问题,需要将降维方法与聚类分析相结合,达到更好的聚类效果。

公布号为107526946的中国专利提出了“融合自学习和低秩表示的基因表达数据癌症分类方法”,该方法分别利用低秩矩阵和稀疏矩阵上使用一种无监督聚类方法,分别获得基于低秩矩阵和稀疏矩阵的预测结果,该方法利用少量的标注样本的同时提高了预测精度,在一定程度上减少了标注样本的时间和人力成本。但是,由于基因表达数据有很高的维度,现有的聚类方法难以对高维的基因表达数据进行有效分类。

发明内容

本发明的目的是提供一种基因分类方法与装置,用于解决现有基因分类方法聚类效果低的问题。

为解决上述技术问题,本发明提出一种基因分类方法,包括以下方法方案:

方法方案一,包括如下步骤:

1)获取基因表达数据,基因表达数据中包含设定数量的样本,每一样本中包含设定数量的基因,将基因表达数据中各基因进行排列组合形成矩阵,形成的矩阵为基因表达数据矩阵;

2)采用局部线性嵌入算法对所述基因表达数据矩阵进行降维,计算基因表达数据矩阵的线性嵌入矩阵,得到降维后的特征基因子集;

3)采用近邻传播聚类算法对所述特征基因子集进行聚类,得到基因的聚类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南师范大学,未经河南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810046229.7/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top