[发明专利]一种基于间隙谱的生物序列分析方法无效

专利信息
申请号: 200810057200.5 申请日: 2008-01-30
公开(公告)号: CN101497924A 公开(公告)日: 2009-08-05
发明(设计)人: 安冬;苏谦 申请(专利权)人: 中国农业大学
主分类号: C12Q1/68 分类号: C12Q1/68;G06F19/00
代理公司: 北京路浩知识产权代理有限公司 代理人: 王朋飞
地址: 100083*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 间隙 生物 序列 分析 方法
【说明书】:

技术领域

发明属于生物信息学领域,具体涉及一种生物序列的非比对的分析方法。

背景技术

众所周知,生物序列包括核酸、氨基酸序列,含有大量生命信息。目前,生物序列测序已经不是一件难事。在国内外的各数据库中,已积聚了海量的生物序列数据。为了使用好这些海量数据,揭示出生物序列数据背后更深层次的结构、功能信息,产生了计算机化的生物序列分析方法。传统的计算机化的生物序列分析方法的基本思想是当两个分子具有相似的序列时,它们很可能具有相似的三维结构和功能。因此,从数据库中浩瀚的生物序列资源里搜索目的生物序列的同源序列,寻找保守的生物序列模式成为传统生物序列分析的核心内容。根据同时进行比对的生物序列数目,序列比对分为双序列比对和多序列比对。序列比对也可分为全局比对和局部比对,全局比对考虑序列的全局相似性,局部比对考虑序列片段之间的相似性。

用于双序列比对的算法开发于19世纪70年代,开始于由Needleman和Wunsch提出的全局序列比对Needleman-Wunsch算法。Needleman-Wunsch算法的主要思想是利用动态规划的方法计算两条序列之间的最佳比对。根据动态规划算法的复杂性分析,动态规划算法的运算速度与待检序列的长度和数据库大小密切相关。因此对于大规模生物序列的分析,Needleman-Wunsch算法的时间复杂性和空间复杂性都很高。至19世纪80年代,Smith和Waterman提出了局部序列比对的Smith-Waterman算法。Smith-Waterman算法与Needleman-Wunsch算法相似,也存在计算速度慢的问题。

目前,FASTA算法和BLAST算法是替代Smith-Waterman算法的两个流行的局部序列比对算法。与Smith-Waterman算法不同,虽然它们的计算速度比较快,但不能保证找到最佳比对,即灵敏度低。

虽然双序列比对是传统生物序列分析的基础,但对于成组序列,必须进行多序列比对。在目前发展的众多多序列比对方法中,最常用的是来自Da-Fei Feng和Russell Doolittle的Clustal算法。这种方法需要先对所有的序列计算两两比对的分值,然后从关系最近的一对序列开始,逐步加入其他序列。ClustalW是最常用的多序列比对程序之一。多序列比对方法同样不能同时保证计算的高速度和高灵敏度。

人们应用基于序列相似性的传统序列比对分析方法成功地预测出一部分基因的结构和功能。但是随着研究的深入,发现相当一部分功能相似的分子之间并不存在保守序列或共同的功能结构域,如RNA沉默抑制子。这就决定了无法利用基于序列相似性的传统方法来研究这些分子的结构和功能。并且,传统的计算机化生物序列分析是以牺牲灵敏度来换取速度提高的。在处理海量数据时,也不能同时满足高速度和高灵敏度。

发明内容

本发明的目的是提供一种高速度、高灵敏度和高准确性的生物序列的分析方法。

为了实现本发明的目的,本发明的一种生物序列的分析方法,其包括如下步骤:

(1)、计算生物序列的间隙谱:计算生物序列中字符之间的距离,分别统计字符之间相同距离的出现频率,构成间隙谱;

(2)、计算不同生物序列间的相似度;

(3)、推导不同生物序列的同源性或生物学功能:根据步骤(2)计算得到的相似度,如果相似性高,则推导这些生物序列之间可能具有同源性,或可能具有相似的生物学功能。

所述的步骤(1)后还包括如下步骤(1)′:①将间隙谱中的频率数据进行归一化,得到归一化后的频率数据;②计算间隙谱中频率最大值、最小值、均值、中位值、方差中的一种或多种;③将步骤①②得到的数据依次排列组合成一个特征向量,表示一条生物序列,再用线性相关系数或距离法计算不同生物序列间的相似度。

所述的步骤(1)′还包括如下步骤统计归一化后的间隙谱中字符相同距离出现的频率值的高低或者差别,如果在不同生物序列的间隙谱中,某一字符对的某一频率值都较高,则这一字符对是这些生物序列的一种相似(保守)序列模式;如果这一频率值在不同生物序列中差别较大,则这一频率值对应的字符对是这些生物序列的一种差别序列模式。

所述的步骤②还包括计算间隙谱中出现频率最大值、最小值时字符之间的距离。

所述的计算生物序列中字符之间的距离的方法包括如下步骤:

在用一维坐标标识的长度为n的生物序列中,沿正链方向或反链方向找到第一次出现某特定字符的坐标;

沿着该方向找到第二次、第三次、直至第p(p≤n)次出现某特定字符坐标;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810057200.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top