[发明专利]一种RNA结构比对方法在审
申请号: | 201810039783.2 | 申请日: | 2018-01-16 |
公开(公告)号: | CN108334748A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 刘士勇;郑进芳 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/22 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 许恒恒;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种RNA比对方法。该方法包括获得RNA初始比对结果;根据RMscore进行打分;计算比对上的核苷酸的空间距离,直到小于的核苷酸对不再变化为止;获取收敛矩阵,直到获得稳定的RNA三级结构比对结果。本发明的RNA结构比对方法能获得叠加好的结构和序列比对结果。该方法RMalign不依赖于RNA长度,通过引入RMscore,相比于现有技术的方法使得RNA比对更加的精确;本发明将描述RNA之间的相似性统一到(0,1)这个区间中,减少了描述RNA相似性分数的方差。 | ||
搜索关键词: | 比对 比对结果 核苷酸 矩阵 相似性分数 空间距离 三级结构 序列比对 方差 叠加 收敛 引入 统一 | ||
【主权项】:
1.一种RNA结构比对方法,其特征在于,包括以下步骤:(1)将比对RNA和被比对RNA进行序列比对,得到初始序列比对结果,使用叠加算法计算所述初始序列比对结果,得到平移向量和旋转矩阵R;(2)将步骤(1)得到的平移向量和旋转矩阵R根据作用到被比对RNA原始结构上后,与比对RNA进行叠加形成叠加好的结构A1;所述指的是被比对RNA的空间坐标;(3)将步骤(2)得到的叠加好的结构A1根据公式得到距离矩阵S(i,j);其中dij是比对RNA核苷酸序列的第i个碱基和被比对RNA核苷酸序列的第j个碱基的距离;其中d0由公式计算得到,LN指的是比对RNA和被比对RNA片段的平均核苷酸个数,A、B、C、D、E和F是任意正数;(4)将步骤(3)得到的距离矩阵作为打分矩阵,并将比对RNA和被比对RNA进行序列比对,得到第一序列比对结果;(5)将步骤(4)中得到的第一序列比对结果使用RMscore打分过程进行打分,得到最大的RMscore分数以及对应的旋转矩阵R1;所述RMscore打分过程包括以下步骤:(S1)选取步骤(4)中所述第一序列比对结果中比对上的核苷酸对片段,所述片段至少含有3对连续的比对上的核苷酸对,将所述片段的核苷酸对质心均移动到原点,将叠加算法运用到质心移动到原点的片段上,得到旋转矩阵R2;(S2)根据的方式作用到被比对RNA原始结构上后,与比对RNA形成叠加好的结构A2;所述是被比对的RNA空间坐标;(S3)根据步骤(S2)得到叠加好的结构A2,计算出比对上的核苷酸对中距离小于的核苷酸对;(S4)将步骤(S3)得到的距离小于的核苷酸对使用叠加算法进行叠加得到旋转矩阵R3,根据的方式作用到被比对RNA原始结构上后,与比对RNA形成叠加好的结构A3,计算出比对上的并且距离小于的核苷酸对;所述是被比对的RNA空间坐标;(S5)判断步骤(S4)得到的旋转矩阵R3和步骤(S1)得到的旋转矩阵R2的差别,若差别不超过0.0001,那么进入步骤(S6);若差别超过0.0001,将R2更新为R3,然后重复步骤(S2)‑步骤(S4),得到更新后的R3,直到更新的R2和更新后的R3的差别不超过0.0001;(S6)取步骤(S5)中差别不超过0.0001的更新的R2和更新后的R3之间的任意值作为收敛旋转矩阵R4,根据的方式作用到被比对RNA原始结构上后,与比对RNA形成叠加好的结构A4;所述是被比对的RNA空间坐标;(S7)根据公式计算步骤(S6)所述的叠加好的片段结构A4的RMscore分数,其中LN指的是比对RNA和被比对RNA片段的平均核苷酸个数,LT指的是比对上的核苷酸对数,di是叠加好的结构中比对上的核苷酸之间的距离;所述d0是由公式计算得到,其中LN指的是比对RNA和被比对RNA片段的平均核苷酸个数,G、H、I、J、K和L是任意正数;(S8)更换步骤(S1)所述比对上的核苷酸对片段,直至所述片段取遍所有至少含有3对连续的比对上的核苷酸对,重复步骤(S1)‑(S7),得到不同的RMscore分数,取其中最大的RMscore分数以及对应的旋转矩阵R1;(6)根据的方式作用到被比对RNA原始结构上后,与比对RNA形成叠加的结构A5;所述是被比对的RNA空间坐标;将叠加好的结构A5根据公式得到距离矩阵S(i,j);其中dij是比对RNA核苷酸序列的第i个碱基和被比对RNA核苷酸序列的第j个碱基的距离;其中d0由公式计算得到,LN指的是比对RNA和被比对RNA片段的平均核苷酸个数,M、N、P、Q、R和S是任意正数;(7)将步骤(6)得到的距离矩阵作为打分矩阵,并将比对RNA和被比对RNA进行序列比对,得到第二序列比对结果;(8)判断步骤(7)得到的第二序列比对结果和步骤(4)得到的第一序列比对结果是否一致;若一致,那么进入步骤(9);若不一致,那么将步骤(7)中的第二序列比对结果作为步骤(4)中的第一序列比对结果,然后重复步骤(5)‑步骤(7),直到步骤(7)得到的第二序列比对结果和步骤(4)得到的第一序列比对结果一致;该结果即为最终序列比对结果;(9)将步骤(8)中的最终序列比对结果使用RMscore打分过程进行打分,得到最大的RMscore分数和相对应的旋转矩阵R5,根据的方式作用到被比对RNA原始结构上后,与比对RNA形成叠加好的结构A6;所述是被比对的RNA空间坐标;(10)步骤(8)中得到的最终序列比对结果以及步骤(9)中得到的最大的RMscore分数和叠加好的结构A6即为最终的比对结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810039783.2/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用