[发明专利]基于ShRec3D和转换参数优化的染色体3D结构建模方法在审
申请号: | 201510542519.7 | 申请日: | 2015-08-28 |
公开(公告)号: | CN105205345A | 公开(公告)日: | 2015-12-30 |
发明(设计)人: | 李建更;张卫;李晓丹;张岩 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F19/12 | 分类号: | G06F19/12;G06F19/18 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于ShRec3D和转换参数优化的染色体3D结构建模方法,将基因片段之间的交互频率转换为空间距离,进一步构建基因组的三维空间结构。该方法,首先通过黄金分割算法寻找最优的转换参数,将两个染色体片段之间的交互作用频率,转化为两个片段之间的空间距离;进而应用最短距离算法构建基因组的空间距离图谱,最后用MDS算法得到三维空间中各个基因片段的相对坐标图,对染色体的三维空间结构可视化。并用均方根误差RMSD和Spearman相关系数度量构建的染色体结构的相似性。本发明对不同分辨率下的Hi-C数据集,能寻找最优的转换参数,提高了ShRec3D算法的准确性和鲁棒性,可用于染色体3D结构的建模。 | ||
搜索关键词: | 基于 shrec3d 转换 参数 优化 染色体 结构 建模 方法 | ||
【主权项】:
基于ShRec3D和转换参数优化的染色体3D结构建模方法,其特征在于:本方法采用的技术方案实现步骤如下,1)染色体3D结构的模型表示;首先将每条染色体分割成一个连着一个的小珠子(bead),每个小珠子代表一定长度的一段序列;若分辨率是1M,就是以1M的长度将染色体打断成一个个连续的小珠子;最终染色体被断成N=ceil(L/H)个连续的小珠子,其中L代表染色体的总长度,H代表所选取的分辨率;然后将交互频率映射到NxN的矩阵(Fij)N×N上,其为对称半正定矩阵,Fij、Dij分别代表第i个小珠子和第j个小珠子之间的交互频率和空间距离;定义重构后的染色体坐标矩阵为X=(x1……xn),其中xi∈R3代表第i个小珠子的三维坐标;2)从接触频率矩阵F到距离矩阵D根据染色体的接触频率Fij和空间距离Dij之间呈现一种power‑law递减分布关系,得到两者之间的转换函数:![]()
其中α是一个针对不同分辨率的数据引入的变转换参数;Dij和Fij是第i和j个片段间的距离和接触频率;3)计算最短路径:针对距离矩阵DN×N中的无穷量用Floyd‑Warshall算法计算最短距离,获得全基因组的空间距离图谱Df;4)MDS(多维尺度变换算法):从距离矩阵Df到空间坐标矩阵X;5)用黄金分割搜索算法,优化得到转换参数αf6)结构相似性度量:用RMSD(均方根误差)和dSCC(距离Spearman相关系数)计算重建的染色体的相似性;31)对于Fij>0的两个点,以欧式距离d(i,j)作为权重赋予i,j两点组成的边,由此获得距离矩阵df(i,j)=d(i,j);32)对于Fij=0的两点,用最短路径通过下式计算:df(i,j)=min{df(i,j),df(i,1)+df(1,j)}41)重建后染色体3D结构中第i,j片段之间的欧式距离为dij(X)=‖xi‑xj‖;MDS的目标是保持重构前后样本点之间的距离误差最小,即![]()
42)定义一个度量矩阵M,其中M由距离矩阵Df获得,通过下式计算得到①![]()
其中doi为第i个点和中心点之间的距离;②
M是一个对称半定矩阵;43)将矩阵M进行奇异值分解,取其最大的m(本文m=3)个特征值(λ1,λ2,……λm)对应的m个特征向量(ω1,ω2,……,ωm),m个特征值组成m维对角矩阵Λ,m个特征向量组成n*m维矩阵V;③
X即为重构后的染色体3D结构片段的三维坐标51)定义一个单峰目标函数error(F,α)=∑|F‑F′|;其中F为真实的染色体接触频率矩阵,
为重构后的三维坐标构建的接触频率矩阵;用黄金分割搜索算法优化α∈(0.1,2)使目标函数最小,得到转换参数αf;61)现阶段,无法获得真实的染色体3D结构;通过两种内切酶(Hind3,NcoI)获得的同一基因组的数据来构建三维结构,从而比较这两个结构重叠的相似性来度量方法的正确性;62)将一个染色体结构的位点片段坐标进行刚性的平移、旋转和伸缩,采用最小平方拟合的方法,使得整体结构最大程度地叠置到另一个结构上;设两个结构的骨架分别由连续的三维坐标点决定,P=(p1,p2……pn)和Q=(q1,q2,……qn),RMSD的计算过程为:对P进行变换,P′=sRP‑T,其中R∈R3×3的旋转矩阵,T∈R3是平移向量,t是伸缩因子;计算:![]()
RMSD计算的是两个结构的标准矢量距离,表示两者结构的相似性;偏差值越小,两结构的相似性越大;63)计算两种重建结构的由三维坐标得到的距离矩阵之间的Spearman相关系数(dSCC)![]()
dSCC∈(‑1,1),dSCC接近1,表示两结构相似性越大;则算法的精确度越高。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510542519.7/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用