[发明专利]一种Hi-C数据拓扑相关结构域划分方法及装置在审
申请号: | 202210482784.0 | 申请日: | 2022-05-05 |
公开(公告)号: | CN114864006A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 张晓彤;杨伊;龚海燕;李铭鸿;张司臣 | 申请(专利权)人: | 北京科技大学;北京科技大学顺德研究生院 |
主分类号: | G16B40/30 | 分类号: | G16B40/30;G06K9/62 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hi 数据 拓扑 相关 结构 划分 方法 装置 | ||
本发明公开了一种Hi‑C数据拓扑相关结构域划分方法及装置,该方法包括:获取Hi‑C基因组测序原始观察数据和用于将原始观察矩阵进行归一化的向量,对原始观察数据预处理,得到归一化的Hi‑C接触矩阵;基于Hi‑C数据接触频率和空间距离之间的关系,将Hi‑C接触矩阵转换为基因组各个位点之间的距离矩阵;通过最短路径算法计算基因组位点间的最短距离,对于每个位点保留距离最小的部分数值得到基因组的空间距离图谱;通过聚类算法对基因组的空间距离图谱中的位点进行聚类,得到Hi‑C数据的TAD划分。本发明通过Hi‑C数据归一化、转换并计算最短路径和基因组位点聚类,实现对染色质TAD的划分。
技术领域
本发明涉及计算生物学技术领域,特别涉及一种Hi-C数据拓扑相关结构域划分方法及装置。
背景技术
Hi-C是一种高通量的染色质构象捕获技术,Hi-C技术能够通过甲醛固定、酶切、环化连接、序列打断、建库测序并将它们映射到参考基因组来捕获全基因组的染色体相互作用。Hi-C技术利用高通量的测序技术,可以生成全基因组、大规模的染色体内和染色体间相互作用(接触频率)数据,可以描述基因组内的空间结构。对相互作用的DNA片段进行更深的测序,则可以获得更高分辨率的Hi-C数据,显示更多、更精细的结构信息。随着其技术不断发展成熟和测序价格的大幅下降,它在文献中逐渐成为常规使用的一种研究基因组的技术。
真核生物基因组在细胞核中折叠成一个具有明确空间结构区域。近些年来三维基因组研究方兴未艾,随着对Hi-C等基因组测序数据的研究,已经逐步发掘出基因组的层次结构。基因组的层次结构由大到小包括:活性和非活性区室(A/B compartment),拓扑相关结构域(TAD),和染色质环。
TAD最近在文献中备受关注,其特征是在染色体的基因组位点在结构域内具有高水平的相互作用而与结构域外的相互作用水平较低,这一结构承担重要生物学功能。TAD的平均长度约为1Mbp,不同的TAD之间又绝缘子进行分隔,且TAD具有跨细胞系稳定性。TAD的一个重要功能是形成基因调控的独立区域,同时与邻近区域隔离开来,基因组TAD的划分对于研究基因调控、基因组相互作用和基因组功能非常有用。TAD破坏可能导致严重的疾病,如癌症。因此,针对实验获得的大量Hi-C数据进行划分TAD是一项非常重要的研究,对TAD的研究有益于深入理解疾病。
现有技术中TAD的鉴定方法复杂多样,但其中基于聚类的方法,如ClusterTAD等,大多使用40kb分辨率或更低分辨率的Hi-C数据用于TAD的划分,对于Hi-C数据分辨率的稳健性和可靠性较低。在超高分辨率下,由于矩阵数据稀疏性,使得样本在特征空间内的聚集性较差,聚类的准确性下降。所以针对高分辨率下的TAD划分方法是值得研究的课题。
发明内容
本发明提供了一种Hi-C数据拓扑相关结构域划分方法及装置,以增强高分辨率Hi-C数据的TAD划分的准确性,实现多层次的TAD划分。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种Hi-C数据拓扑相关结构域划分方法,包括:
获取Hi-C基因组测序原始观察数据和用于将原始观察矩阵进行归一化的向量,利用所述向量对所述原始观察数据预处理,得到归一化的Hi-C接触矩阵;
基于Hi-C数据接触频率和空间距离之间的函数关系,将所述Hi-C接触矩阵转换为基因组各个位点之间的距离矩阵;
通过预设的最短路径算法计算基因组位点间的最短距离,对于每个位点保留距离最小的部分数值,得到基因组的空间距离图谱;
通过预设的聚类算法对所述基因组的空间距离图谱中的位点进行聚类,得到Hi-C数据的拓扑相关结构域划分。
进一步地,所述Hi-C基因组测序原始观察数据的分辨率不小于50kb。
进一步地,利用所述向量对所述原始观察数据预处理,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学;北京科技大学顺德研究生院,未经北京科技大学;北京科技大学顺德研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210482784.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可自清理杂质的智能窗户
- 下一篇:一种高速公路隧道机电安装防护装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置