[发明专利]基于ShRec3D和转换参数优化的染色体3D结构建模方法在审

专利信息
申请号: 201510542519.7 申请日: 2015-08-28
公开(公告)号: CN105205345A 公开(公告)日: 2015-12-30
发明(设计)人: 李建更;张卫;李晓丹;张岩 申请(专利权)人: 北京工业大学
主分类号: G06F19/12 分类号: G06F19/12;G06F19/18
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于ShRec3D和转换参数优化的染色体3D结构建模方法,将基因片段之间的交互频率转换为空间距离,进一步构建基因组的三维空间结构。该方法,首先通过黄金分割算法寻找最优的转换参数,将两个染色体片段之间的交互作用频率,转化为两个片段之间的空间距离;进而应用最短距离算法构建基因组的空间距离图谱,最后用MDS算法得到三维空间中各个基因片段的相对坐标图,对染色体的三维空间结构可视化。并用均方根误差RMSD和Spearman相关系数度量构建的染色体结构的相似性。本发明对不同分辨率下的Hi-C数据集,能寻找最优的转换参数,提高了ShRec3D算法的准确性和鲁棒性,可用于染色体3D结构的建模。
搜索关键词: 基于 shrec3d 转换 参数 优化 染色体 结构 建模 方法
【主权项】:
基于ShRec3D和转换参数优化的染色体3D结构建模方法,其特征在于:本方法采用的技术方案实现步骤如下,1)染色体3D结构的模型表示;首先将每条染色体分割成一个连着一个的小珠子(bead),每个小珠子代表一定长度的一段序列;若分辨率是1M,就是以1M的长度将染色体打断成一个个连续的小珠子;最终染色体被断成N=ceil(L/H)个连续的小珠子,其中L代表染色体的总长度,H代表所选取的分辨率;然后将交互频率映射到NxN的矩阵(Fij)N×N上,其为对称半正定矩阵,Fij、Dij分别代表第i个小珠子和第j个小珠子之间的交互频率和空间距离;定义重构后的染色体坐标矩阵为X=(x1……xn),其中xi∈R3代表第i个小珠子的三维坐标;2)从接触频率矩阵F到距离矩阵D根据染色体的接触频率Fij和空间距离Dij之间呈现一种power‑law递减分布关系,得到两者之间的转换函数:<mrow><msub><mi>D</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msup><msub><mi>F</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mrow><mo>(</mo><mo>-</mo><mi>&alpha;</mi><mo>)</mo></mrow></msup></mrow></mtd><mtd><mtable><mtr><mtd><mrow><mi>i</mi><mi>f</mi></mrow></mtd><mtd><mrow><msub><mi>F</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>&gt;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mtd></mtr><mtr><mtd><mi>&infin;</mi></mtd><mtd><mrow><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced></mrow>其中α是一个针对不同分辨率的数据引入的变转换参数;Dij和Fij是第i和j个片段间的距离和接触频率;3)计算最短路径:针对距离矩阵DN×N中的无穷量用Floyd‑Warshall算法计算最短距离,获得全基因组的空间距离图谱Df;4)MDS(多维尺度变换算法):从距离矩阵Df到空间坐标矩阵X;5)用黄金分割搜索算法,优化得到转换参数αf6)结构相似性度量:用RMSD(均方根误差)和dSCC(距离Spearman相关系数)计算重建的染色体的相似性;31)对于Fij>0的两个点,以欧式距离d(i,j)作为权重赋予i,j两点组成的边,由此获得距离矩阵df(i,j)=d(i,j);32)对于Fij=0的两点,用最短路径通过下式计算:df(i,j)=min{df(i,j),df(i,1)+df(1,j)}41)重建后染色体3D结构中第i,j片段之间的欧式距离为dij(X)=‖xi‑xj‖;MDS的目标是保持重构前后样本点之间的距离误差最小,即<mrow><msub><mi>Minimize&Sigma;</mi><munder><mrow><mn>0</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow><mrow><mn>0</mn><mo>&lt;</mo><mi>j</mi><mo>&lt;</mo><mi>n</mi></mrow></munder></msub><msup><mrow><mo>(</mo><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>-</mo><msub><mi>d</mi><mi>f</mi></msub><mo>(</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mo>)</mo><mo>)</mo></mrow><mn>2</mn></msup></mrow>42)定义一个度量矩阵M,其中M由距离矩阵Df获得,通过下式计算得到①<mrow><msubsup><mi>d</mi><mrow><mi>o</mi><mi>i</mi></mrow><mn>2</mn></msubsup><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msubsup><mi>D</mi><mrow><mi>i</mi><mi>j</mi></mrow><mn>2</mn></msubsup><mo>-</mo><mfrac><mn>1</mn><msup><mi>N</mi><mn>2</mn></msup></mfrac><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msubsup><mi>&Sigma;</mi><mrow><mi>k</mi><mo>&gt;</mo><mi>j</mi></mrow><mi>N</mi></msubsup><msubsup><mi>D</mi><mrow><mi>j</mi><mi>k</mi></mrow><mn>2</mn></msubsup></mrow>其中doi为第i个点和中心点之间的距离;②M是一个对称半定矩阵;43)将矩阵M进行奇异值分解,取其最大的m(本文m=3)个特征值(λ12,……λm)对应的m个特征向量(ω12,……,ωm),m个特征值组成m维对角矩阵Λ,m个特征向量组成n*m维矩阵V;③X即为重构后的染色体3D结构片段的三维坐标51)定义一个单峰目标函数error(F,α)=∑|F‑F′|;其中F为真实的染色体接触频率矩阵,为重构后的三维坐标构建的接触频率矩阵;用黄金分割搜索算法优化α∈(0.1,2)使目标函数最小,得到转换参数αf;61)现阶段,无法获得真实的染色体3D结构;通过两种内切酶(Hind3,NcoI)获得的同一基因组的数据来构建三维结构,从而比较这两个结构重叠的相似性来度量方法的正确性;62)将一个染色体结构的位点片段坐标进行刚性的平移、旋转和伸缩,采用最小平方拟合的方法,使得整体结构最大程度地叠置到另一个结构上;设两个结构的骨架分别由连续的三维坐标点决定,P=(p1,p2……pn)和Q=(q1,q2,……qn),RMSD的计算过程为:对P进行变换,P′=sRP‑T,其中R∈R3×3的旋转矩阵,T∈R3是平移向量,t是伸缩因子;计算:<mrow><mi>R</mi><mi>M</mi><mi>S</mi><mi>D</mi><mo>=</mo><mi>m</mi><mi>i</mi><mi>n</mi><msqrt><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msup><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>-</mo><msubsup><mi>p</mi><mi>i</mi><mo>&prime;</mo></msubsup><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow>RMSD计算的是两个结构的标准矢量距离,表示两者结构的相似性;偏差值越小,两结构的相似性越大;63)计算两种重建结构的由三维坐标得到的距离矩阵之间的Spearman相关系数(dSCC)<mrow><mi>d</mi><mi>S</mi><mi>C</mi><mi>C</mi><mfrac><mrow><mi>&Sigma;</mi><mrow><mo>(</mo><msub><mi>d</mi><mn>1</mn></msub><mo>-</mo><mover><msub><mi>d</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>d</mi><mn>2</mn></msub><mo>-</mo><mover><msub><mi>d</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow><msqrt><mrow><mi>&Sigma;</mi><mo>(</mo><msup><mrow><mo>(</mo><msub><mi>d</mi><mn>1</mn></msub><mo>-</mo><mover><msub><mi>d</mi><mn>1</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup><mi>&Sigma;</mi><mo>(</mo><msup><mrow><mo>(</mo><msub><mi>d</mi><mn>2</mn></msub><mo>-</mo><mover><msub><mi>d</mi><mn>2</mn></msub><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac></mrow>dSCC∈(‑1,1),dSCC接近1,表示两结构相似性越大;则算法的精确度越高。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510542519.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top