[发明专利]一种利用文本比对分析高通量测序基因表达水平的方法有效
申请号: | 201810075940.5 | 申请日: | 2018-01-26 |
公开(公告)号: | CN108388772B | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 宋东光 | 申请(专利权)人: | 佛山科学技术学院 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
地址: | 528000 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 文本 分析 通量 基因 表达 水平 方法 | ||
本发明属于生物信息学领域,提供了一种分析高通量测序序列基因表达量的方法,首先对测序序列进行编码、打散、随机组合,选取其中10万条序列作为查询序列分别与100万条序列进行比对,从每个查询序列随机选取9组20mer比对100万条序列去重后获得该序列的转录数量。利用查询序列首尾20mer从匹配的比对重叠群进行拼接。合并所有查询序列组比对表达数量即得到了该拼接序列的表达量,与用互补链进行比对得到的负链表达量相当。本方法可以有效用于高通量测序基因表达量及进行序列从头组装等分析。
技术领域
本发明属于生物信息学领域,涉及一种利用开放源代码操作系统命令行进行文本匹配,对高通量测序获得的短核苷酸序列进行相似性比对,并拼接匹配的重叠序列群,用于分析生物个体组织内基因表达水平的分析方法。
背景技术
高通量测序技术对数百万个DNA分子进行同时测序,使得对一个物种或者样品中的转录组和基因组进行细致全貌的分析成为可能。目前,常用的高通量测序技术主要Roche/454、ABI/SOLID测序技术、Illumina/Solexa测序技术、单分子测序技术及IonTorrrent等测序技术。RNA-Seq高通量测序,又称为转录组测序,是从2008年之后迅速开展的高通量测序方法,首先提取RNA并进行片段化后进行逆转录得到其互补DNA(cDNA),双链cDNA加上接头并进行PCR扩增,之后进行高通量测序,每次可以获得百万条以上短序列(通常50~300个核苷酸),从获得的cDNA序列可以了解各个基因的转录表达情况。因此,确切获得基因组或转录组信息是高通量测序的首要任务,进行DNA/RNA序列比对分析工具很多,多数需要复杂的算法来完成。其中,BLAST(Basic Local Alignment Search Tool)是由NCBI(National Center for Biotechnology Information)开发的序列相似搜索程序,是最常用的序列比对及基因注释软件。BLAST在序列数据库中快速查找与给定序列具有最优局部比对匹配的序列的算法,需要借助打分矩阵获得比对打分来确定比对序列之间(包括搜索目标双链序列)的相似程度。
目前,已有的通过高通量测序测定基因的表达水平的方法有CLC,Trinity,SOAP,Oases,ABySS,NextGENe,TopHAT,RSEM,eXpress,Sailfish,kallisto,NURD等,这些方法仍在不断改进,每种方法各有特点,算法原理各异,不同方法得到的结果显然是有差异的(同一算法设置参数不同其结果也相差很大),因此,开发适合分析高通量测序基因表达水平的方法仍然是必要的。分析工具应具有快速方便,算法简单,序列分析过程可追溯及后续深入分析,本发明基于从海量序列数据中选取合适数据大小,利用序列文本查找目标数据集进行匹配获得相似序列重叠群,然后进行拼接延伸得到较长转录序列,重叠群里面的序列仍然可以进行序列差异分析(包括选择性剪接等)。
发明内容
本发明的目的在于提供一种简便高效的分析高通量测序基因表达水平的方法。
本发明的目的还在于提供一种可以同时分析DNA双链高通量测序序列比对及拼接的方法。
本发明的目的还在于提供一种系统兼容的分析高通量测序序列比对及拼接的方法和系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山科学技术学院,未经佛山科学技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810075940.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物多样性自动分析方法
- 下一篇:一种肿瘤新生抗原的鉴定方法