[发明专利]基于多核CPU硬件的高通量转录组测序数据质量控制方法有效
申请号: | 201410205571.9 | 申请日: | 2014-05-15 |
公开(公告)号: | CN105095686B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 周茜;宁康;苏晓泉;徐健 | 申请(专利权)人: | 中国科学院青岛生物能源与过程研究所 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 沈阳科苑专利商标代理有限公司 21002 | 代理人: | 徐丽;周秀梅 |
地址: | 266101 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多核 cpu 硬件 通量 转录 序数 质量 控制 方法 | ||
1.一种基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,包括以下步骤:
利用多核CPU对高通量转录组测序数据进行并行处理,得到去除低测序质量序列的数据;
利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定;
对序列比对结果进行统计和评价;
所述利用多核CPU对去除低测序质量序列的数据中的rRNA序列进行预测和去除,并进行污染序列的定性鉴定,包括以下步骤:
将数据库SILVA中所有的rRNA序列构建隐马尔科夫模型;基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,并将预测的rRNA序列从转录组数据中去除;
将所预测和提取的16S或18S rRNA,映射到已知rRNA序列数据库SILVA上,获得所有序列的物种来源信息,分别将16S和18S rRNA特征序列的注释结果汇总到一起,生成物种结构组成结果,从而获得转录组测序数据中所有可能存在的物种及污染信息;
所述基于隐马尔科夫模型搜索对于转录组序列进行rRNA预测和提取,包括以下步骤:
将经过Parallel-QC处理过的去除低质量测序序列的数据文件分割成小规模子数据;
将不同的子数据分配到不同的CPU内核上;
在众多CPU内核上同时预测子序列的16S、18S、23S或28S rRNA特征序列;
将各类特征序列预测结果合并到一起;
根据特征序列预测结果多次将大规模输入数据从外存储器中载入内存并查找提取,最后将搜索结果合并。
2.根据权利要求1所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述利用多核CPU对高通量转录组测序数据进行低测序质量序列的去除,包括以下步骤:
利用Parallel-QC工具将输入文件分割成若干个小规模子数据;
将各个子数据分配到不同的CPU内核上;
同时在多个CPU内核上检测其子数据中每个序列的碱基质量和接头序列,并根据用户指定的长度依次切除每个序列两端的低质量碱基,过滤含有用户指定比例的低质量碱基的序列,删除其中的接头序列;
将上述处理后的序列合并到一起,从而得到去除低测序质量序列的数据。
3.根据权利要求1所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述对序列比对到参考基因组上的结果进行统计和评价,包括统计序列的数目、计算序列覆盖度、汇总双端序列比对信息。
4.根据权利要求3所述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述统计序列的数目包括全部序列、比对成功的序列、比对到某些特定基因组区域的序列以及上述序列在全部序列中分别所占的比例。
5.根据权利要求3述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述计算序列覆盖度包括有序列成功比对的基因的数目、每个基因的碱基覆盖度、成功比对的序列在基因组结构上的分布。
6.根据权利要求3述的基于多核CPU硬件的高通量转录组测序数据质量控制方法,其特征在于,所述汇总双端序列比对信息包括双端均成功比对的序列数目、只有一端成功比对的序列的数目、双端比对序列的的插入片段长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院青岛生物能源与过程研究所,未经中国科学院青岛生物能源与过程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410205571.9/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用