[发明专利]基于ShRec3D和转换参数优化的染色体3D结构建模方法在审
申请号: | 201510542519.7 | 申请日: | 2015-08-28 |
公开(公告)号: | CN105205345A | 公开(公告)日: | 2015-12-30 |
发明(设计)人: | 李建更;张卫;李晓丹;张岩 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F19/12 | 分类号: | G06F19/12;G06F19/18 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 shrec3d 转换 参数 优化 染色体 结构 建模 方法 | ||
技术领域
本发明涉及生物信息学中染色体三维模型构建技术领域,是一种针对不同分辨率下的Hi-C数据的染色体3D结构建模的方法。
背景技术
基因组学的研究使认识到基因的正确表达、调控以及调控原件之间的相互作用都需要在染色体折叠成的复杂的三维结构中完成。因此构建染色体的三维结构对于进一步的理解基因组的表达、调控等功能有重要的意义。近些年来,基于染色质构象捕获(chromosomeconformationcapture,3C)及其衍生技术基础上发展起来的Hi-C技术,能够在全基因组范围内捕获不同基因座之间的空间交互,揭示基因组空间结构的规律性及其与基因调控之间的关系。基于这些高通量交互数据,进一步采用数学建模方法,得到的结果极大拓展了对基因组空间结构的认识。
基于高通量测序数据的染色体3D结构的建模大致分为两类:(i)consensus方法,目的在于重建一个整体数据反应的单个染色体的平均结构。(ii)ensemble方法,用于产生多个代表性的结构,反应一个细胞群体中多个基因组空间结构呈现的整体趋势。这两类方法用于染色体3D结构建模都经过两个重要步骤,一是将两个DNA片段之间的交互作用频率,转换成三维空间距离;二是基于空间距离,采用约束优化方法获得最优的染色体三维空间结构。对于单个染色体的平均结构的研究,Hi-C数据中染色体片段间的接触频率和其空间距离的转换函数成为研究的关键。常见的转换方式包括反比例转换和线性转换.ChromSDE方法中首次提出了一个变参数的幂指数转换函数:d=f(-α),用黄金分割算法寻找最优的参数;然后通过半正定规划算法(SDP)得到三维结构。ShRec3D方法中针对Hi-C接触频率矩阵为稀疏矩阵的特点,提出了一个两步算法:首先针对d=f-1中的无穷的距离d,用图论中的最短距离算法获得全基因组的距离矩阵;而后用经典的MDS(multidimensionalscaling),获得三维空间相对坐标位置。ShRec3D方法避免了ChromSDE算法中对于高分辨率下大数据量无法收敛的问题,且计算效率比ChromSDE算法高出几个数量级。
发明内容
本发明的目的在于针对ShRec3D和ChromSDE算法中的不足,提出了一种基于ShRec3D和转换参数优化的染色体3D结构建模方法。针对ShRec3D算法中对不同分辨率的数据只有固定转换函数d=f-1这一问题,引进了一个转换参数变量α。应用于不同的Hi-C数据集,证明了ShRec3D算法更好的准确性和鲁棒性。本发明有助于从算法上更加精确的构建染色体3D结构,可视化展示基因组的三维空间结构,启发人们对基因组功能的理解。
为实现上述目的,本发明采用的技术方案实现步骤如下:
1)染色体3D结构的模型表示;
首先将每条染色体分割成一个连着一个的小珠子(bead),每个小珠子代表一定长度的一段序列。例如分辨率是1M,就是以1M的长度将染色体打断成一个个连续的小珠子。最终染色体被断成N=ceil(L/H)个连续的小珠子,其中L代表染色体的总长度,H代表所选取的分辨率。然后将交互频率映射到NxN的矩阵(Fij)N×N上,其为对称半正定矩阵,Fij、Dij分别代表第i个小珠子和第j个小珠子之间的交互频率和空间距离。定义重构后的染色体坐标矩阵为X=(x1……xn),其中xi∈R3代表第i个小珠子的三维坐标。
2)从接触频率矩阵F到距离矩阵D
根据染色体的接触频率Fij和空间距离Dij之间呈现一种power-law递减分布关系,得到两者之间的转换函数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510542519.7/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用