[发明专利]一种构建基因调控网络的方法在审
申请号: | 201811104840.7 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109215735A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 唐东明 | 申请(专利权)人: | 西南民族大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B25/00;G16B40/00;G16B5/00 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 刘凯 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 基因表达数据 基因调控网络 最大信息 非线性关系 边缘数据 聚类信息 条件计算 先验知识 信息损失 复杂度 精细化 保留 度量 聚类 修剪 网络 调控 | ||
本发明公开了一种构建基因调控网络的方法,首先将采用最大信息系数来度量基因表达数据的线性与非线性关系,最大限度保留基因表达数据中的相关性信息,弥补一种模型带来的信息损失;采用局部致峰值聚类对基因表达数据进行修剪,找出数据中的噪数据,边缘数据,最大限度的保留网络的局部相关性;以获得的聚类信息作为条件计算条件最大信息系数来更进一步精细化的构建基因调控网络。本发明提出的方法将减少计算的复杂度,并且先验知识更加可靠,构建调控网络的目的性更强。
技术领域
本发明涉基因调控网络关系分析技术领域,具体为一种构建基因调控网络的方法。
背景技术
自然界中生物体是以一个非常复杂的分子系统存在的,在细胞中不同的分子相互作用使得细胞分化成不同的组织。生物系统中基因并不是孤立存在的,生命系统是一个复杂的整体结构,基因间并非简单的线性作用关系,而存在一个复杂的基因调控关系。研究基因调控网络有助于研究细胞生命过程的运作机制,有助于解释一些生命过程的奥秘,可以为复杂疾病的治疗供新的思路,并有助于药物靶标的筛选和个性化治疗药物的研制。随着高通量技术的发展,可以快速的获得生物体的基因表达数据,由此产生的海量数据是揭示基因及其产物之间相互关系的基础。基因调控网络本身可以理解成一个图模型,在构造图时如果考虑作用方向等,那么一个简单的由4个基因构成的图就可能有多种不同的构造方式。因此在没有先验知识的情况下调控网络的分析将是一个NP难问题。由于基因表达数据的维数较高,造成一些方法的计算复杂度较高;其次由于基因表达数据中噪声的干扰,大多数基因调控网络分析方法不具有普适性,对数据有偏好。
在基因调控网络构建过程中为了简化网络构建的复杂度,大部分方法采用固定的阈值对关联性进行初步的筛选,即对关联矩阵进行统一的稀疏化。这种方式简单,但是这个阈值很难合适的设置,设置的过大则会造成最后生成的网络丢弃了过多的关联关系,过小则造成网络结构复杂。真实的基因调控网络具有模块化、局部相关性,并且在实际的数据中有很大一部分的数据对构建基因调控网络是没有意义的,反而会干扰网络的构建并增加计算的复杂度。
发明内容
针对上述问题,本发明的目的在于采用最大信息系数来度量基因表达数据的线性与非线性相关性,最大限度的保留基因表达数据中的相关性信息,弥补单独采用一种模型带来的信息损失;接下来采用局部相关性聚类方法对基因表达数据进行修剪,可以较为精确的找出数据中的噪声和边缘数据,并最大限度的保留网络的局部相关性,符合基因调控网络的局部模块化特性。最后以获得的聚类信息作为条件先验知识来更进一步精细化的构建基因调控网络,这样将减少计算的复杂度,并且先验知识更加可靠,构建调控网络的目的性更强。
一种构建基因调控网络的方法包括以下步骤:
步骤1:对原始的基因表达数据进行预处理,然后采用最大信息系数计算距离。MIC将两个观测序列的观测值划分到不同的二维网格中,并计算每种划分方式获得的最大互信息,通过这种方式来探测两个观测序列的关系。设X,Y为两个观测序列,则下式(1)表示对x列y行划分的不同网格G所能获得的最大互信息,下式(2)表示两个观测序列的最大信息系数,即在各种不同划分格数下所能获得最大的值,B(n)用于控制最大划分个数。在此将获得两个序列的MIC值取负值即为两个序列之间的距离。
I*(D,x,y)=max I(D|G) (I)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南民族大学,未经西南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811104840.7/2.html,转载请声明来源钻瓜专利网。