[发明专利]对基于随机上下文无关文法的RNA二级结构预测进行加速的方法无效
申请号: | 200910043922.X | 申请日: | 2009-07-17 |
公开(公告)号: | CN101717817A | 公开(公告)日: | 2010-06-02 |
发明(设计)人: | 夏飞;窦勇;姜晶菲;周杰;邬贵明;雷元武 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | C12Q1/68 | 分类号: | C12Q1/68;G06F19/00;G06F9/38 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 郭敏 |
地址: | 410073 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 上下文 无关 文法 rna 二级 结构 预测 进行 加速 方法 | ||
技术领域
本发明涉及对基于随机上下文无关文法SCFG(Stochastic Context-free Grammars) 模型的RNA二级结构预测进行加速的方法。
背景技术
随着人类及其他各物种基因组测序项目的完成,生物信息学的研究已步入后基因组 时代。序列比对和搜索已成为分子生物学领域最重要的基础性工作。目前在DNA和蛋白 质序列分析领域已有许多经典的研究工具,如BLAST、FASTA、HMMER、ClustalW等。 而自20世纪80年代中期具有催化性质的RNA被发现以来,RNA所起的各种重要生物化学 功能逐渐引起了人们的关注。与DNA序列的双螺旋结构不同的是,虽然RNA序列本身是 一条单链,但它能通过碱基互补配对形成空间二维乃至三维结构,RNA的各种重要功能 与其结构直接相关,随着近年来非编码RNA在生物体内所起的重要作用被发现,针对RNA 结构的研究受到人们的日益关注与重视。
由于RNA序列结构上的保守性大于序列的保守性,有时序列本身相似度很低的两个 RNA分子有可能具有很相似的结构,从而具有相近的功能,所以仅仅采用传统的序列一 维结构分析工具无法满足对RNA结构特性研究的需求。另一方面,由于结构信息的加入 大大增加了RNA序列分析的复杂性,直接针对三维结构的理论预测方法还很不成熟。因 此研究RNA二级结构是揭示整个RNA奥秘的根本途径。关于RNA序列分析模型及二级结 构预测方法,一直是近年来生物信息学研究的热点和难点问题。
目前,最直接的RNA结构测定方法是采用X射线衍射和核磁共振,这种方法虽然结 果精确可靠但是只有在拥有相关设备的环境下才能进行,这种方法所用设备非常昂贵, 且非常耗时。因此采用计算机和数学模型预测RNA序列二级结构的方法被广泛采用,目 前主要有三类RNA二级结构预测方法:基于热力学模型的Zuker最小自由能方法,基于比 较序列分析模型的多序列比对方法和基于SCFG的结构预测方法。其中,基于SCFG理论 模型的标准算法为Coche-Younger-Kasami,简称CYK算法,是目前最好的RNA二级结构 预测方法之一。
无回溯的CYK算法用于实现单条序列与单个RNA家族的共变模型CM(Covariance Model)间的比对,从而判断该RNA序列是否属于该家族。带回溯的CYK算法还可进 一步得到该序列的二级结构。CYK算法是一种三维动态规划算法,根据矩阵填充方向不 同,又可分为inside和outside两种,但本质上并无不同之处。无回溯CYK/inside算法的 输入为一条长度为L的RNA序列x=x1...xL和一个CM模型。CM模型是Eddy和Durbin 提出的一种进行RNA二级结构分析的概率模型,它利用SCFG从一组同源RNA序列的 多序列比对结果中发现一致性的结构,以刻画RNA家族共同的结构信息。CM模型由K 个不同的状态以及对应的字符生成概率ek和状态转移概率tk组成,状态信息中包括当前 状态的类型、编号、父/子状态的数量以及编号。在循环变量i、j、k的控制下,无回溯 CYK/inside算法实际上是不断地迭代计算一个由K个三角矩阵叠加构成的三维矩阵(每 一个三角矩阵对应CM模型中的一个状态),迭代公式如下(1≤i≤j+1,0≤j≤L, 1≤k≤K):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910043922.X/2.html,转载请声明来源钻瓜专利网。