[发明专利]一种利用文本比对分析高通量测序基因表达水平的方法有效
申请号: | 201810075940.5 | 申请日: | 2018-01-26 |
公开(公告)号: | CN108388772B | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 宋东光 | 申请(专利权)人: | 佛山科学技术学院 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
地址: | 528000 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 文本 分析 通量 基因 表达 水平 方法 | ||
1.一种分析高通量测序基因表达水平的方法,其特征在于,包含以下步骤:
S1.获取待分析样本的高通量测序信息;
S2.序列加编号,打散,随机组合;
S3.选取上述步骤S2中的10万条序列作为查询序列,将10万条查询序列与100万条序列进行比对后统计查询序列表达量;
S4.将步骤S3中,10万条查询序列与100万条序列比对得到的序列进行重叠群拼接;
S5.重叠群序列的比对以及注释提取;
步骤S3中,随机选取上述步骤S2中打散的100万条序列,在100万条序列中随机选取10万条序列作为查询序列,针对每一条查询序列进行以下操作:
(1)每隔5个核苷酸,取20个连续的核苷酸序列,将每条查询序列分为多个20mer的短片段;
(2)在每条查询序列的多个20mer的短片段中,随机选取9个20mer的短序列;
(3)采用随机选取的至少9个20mer短序列,与100万条序列匹配比对,同时,至少9个20mer短序列的互补链亦进行与100万条序列匹配比对,统计匹配序列编号去除重复编号,获得每条序列与100万条匹配后的数量;
(4)分别计算正链与互补链比对的统计数即获得每个查询序列与100万条序列比对的匹配序列,即匹配该条查询序列的正链与互补链的表达量。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述的待分析样本为动物、植物、微生物的DNA或RNA提取物。
3.根据权利要求1所述的方法,其特征在于,步骤S1中,所述的高通量测序信息采用Roche的454测序平台、Illumina的Hiseq/Miseq测序平台和ABI的SOLiD测序平台中的一种获得。
4.根据权利要求1所述的方法,其特征在于,步骤S2中,打散,随机组合的方法为:采用逐级按照每10万→100万→5万条进行随机排序并按随机方式合并序列,其中,每个100万分成若干个目录单独进行每1万条的随机排序,再随机组合合并所有序列。
5.根据权利要求1所述的方法,其特征在于,步骤S4中,其具体步骤如下:
(1)利用查询序列的5'和3'两端20mer序列进行匹配,切除原始序列后找出剩下最长的序列进行组装拼接从而得到重叠群;
(2)将重叠群相互比对,去除重复的重叠群;
(3)再次进行至少9x20mer随机片段比对;
(4)对匹配的序列组,先在序列组内按照序列号的大小进行排序,然后在不同的序列组间,按组内第一个序列号相同的序列组合并重叠群;
(5)分别计算单独的重叠群和2个及以上的重叠群,找出比对的表达量进行合并得到重叠群的表达量。
6.根据权利要求1所述的方法,其特征在于,步骤S5中,将步骤S4组装拼接得到的重叠群序列与NCBI的BLAST服务器核酸数据库进行比对获得序列的比对及注释信息。
7.根据权利要求1-6任一所述的方法,其特征在于,采用开放源代码操作系统进行操作,所述的开放源代码操作系统选自类Unix系统,所述的开放源代码操作系统选自FreeBSD、OpenBSD、Solaris、Minix或Linux。
8.一种分析高通量测序基因表达水平的系统,其特征在于,所述的系统包括:
1)高通量测序系统:用于获取待分析样本的高通量测序信息;
2)数据处理系统:所述的数据处理系统用于实现权利要求1-6所述的方法的步骤;
所述的数据处理系统为开放源代码操作系统;
所述的开放源代码操作系统选自类Unix系统;
所述的开放源代码操作系统选自FreeBSD、OpenBSD、Solaris、Minix或Linux。
9.一种计算机可读介质,其上存储有计算机指令,其特征在于,该指令被处理执行时实现权利要求1-6所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山科学技术学院,未经佛山科学技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810075940.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物多样性自动分析方法
- 下一篇:一种肿瘤新生抗原的鉴定方法