[发明专利]对双标记序列进行处理和/或基因组定位的方法无效
申请号: | 200680027582.6 | 申请日: | 2006-06-12 |
公开(公告)号: | CN101233509A | 公开(公告)日: | 2008-07-30 |
发明(设计)人: | 邱国平;阮一骏;卫嘉玲 | 申请(专利权)人: | 新加坡科技研究局 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;C12Q1/68;G06F19/00;C12N15/00;G01N33/48 |
代理公司: | 北京润平知识产权代理有限公司 | 代理人: | 周建秋;王凤桐 |
地址: | 新加坡*** | 国省代码: | 新加坡;SG |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记 序列 进行 处理 基因组 定位 方法 | ||
技术领域
本发明是关于一种用于对双标记序列(ditag sequence)进行处理的方法和系统。尤其是关于一种用于建立双标记序列的数据库或文件(file)的方法和系统。本发明还提供了用于对双标记序列进行基因组定位(genomemapping)的方法和系统。
背景技术
自人类和几种其它生物体的基因组序列完成之后,注意力已经被引向对包括基因编码转录本单位在内的功能元件和调整基因表达水平的调控顺式作用元件进行基因组注释。
主要挑战之一是鉴定人类和模式生物体内的所有基因和由基因表达的所有转录本。在基因的注释中,全长cDNA克隆和测序是最决定性的,并且被看作转录本分析的黄金标准(gold standard)。然而,当用于跨越大量物种和生物条件(biological condition)的大量转录本时,这种方法昂贵且缓慢。有基于短标记(short tag)的方法,例如基因表达系列分析(serial analysis ofgene expression,SAGE)和大规模平行测序技术(massively parallel signaturesequence,MPSS)。这些基于短标记的方法提取出14-20碱基对(bp)的标签(signature)用于代表每个转录本。然而,常规的SAGE途径依赖于例如NlaIII的限制酶(restriction enzyme,RE)识别位点的存在,并且缺乏限定基因组中基因分界的能力。而且,标记的特异性通常很差,产生的关于转录本结构的信息经常不完整且很模糊。
基因鉴别标签(Gene Identification Signature,GIS)分析,或者末端成对的双标记(Paired-End diTag,PET)分析,是一种新的方法学,其能够精确鉴别基因组中被表达的基因的转录起始位点(transcription start site,TSS)(也称为转录启动作用位点(transcription initiation site,TIS))和多腺苷酸化位点(polyadenylation site,PAS),从而有助于基因组范围内的转录子组布图(US 2005/0059022)。作为5’长SAGE(5’LongSAGE,5’LS)和3’长SAGE(3’LongSAGE,3’LS)分析方法的改良,开发了GIS(或PET)分析(Wei,C-L.Ng,P.Chiu,K.P.Wong,C.H.Ang,C.C.Lipovich,L.Liu,E.and Ruan Y.2004,5’LongSAGE and 3’LongSAGE for transcriptomecharacterization and genome annotation.Proc.Natl.Acad.Sci.USA 101,11701-11706)。起始于全长cDNA克隆,GIS以同样的顺序和取向将每个全长cDNA分子的最初~18bp(5’标记)和最终~18bp(3’标记)连接,大小的变化由II型限制酶消化的天然不精确性引起,以这样的方式保持了链、顺序(由5’至3’)和取向。以这样的方式建立并排序了包括GIS双标记(GISditag)(也称作PET、GIS ditag或双标记)的库(library)。然而,目前尚未发现有效的方法用于从所述库中鉴定GIS双标记以及构建GIS双标记数据库。
需要对GIS双标记进行定位以发现它们在基因组中相对应的基因。然而,还没有具体公开过对GIS双标记进行定位的方法。而且尚不存在容易适用于对基因组的GIS双标记进行定位的计算算法。过去,SAGE和MPSS标记匹配于由已知序列得到的病毒数据库中的标记基因对(tag-gene pair)。使用该方法,将不能对在病毒数据库中不存在的新的转录本进行定位。两种最常用的序列比对工具为基本的局部比对检索工具(basic local alignmentsearch tool,BLAST)和类似于BLAST的比对工具(BLAST-like alignmenttool,BLAT)。然而它们不是为短标记序列设计的。而且,BLAT经常导致结果很差或不正确,BLAST则要求时间长并且因此不适于大规模定位。
因此在该技术领域需要新的方法和系统来组织并分析GIS双标记数据,以及用于将双标记序列定位于基因组的有效方法和系统。
发明内容
本发明阐述了上述问题,并且提供了对双标记核苷酸序列进行处理的新的方法和/或系统。进而本发明提供了将双标记核苷酸序列定位于基因组的方法和/或系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新加坡科技研究局,未经新加坡科技研究局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680027582.6/2.html,转载请声明来源钻瓜专利网。