[发明专利]一种基于二代测序技术的consensus序列统计分析、可视化方法在审
申请号: | 202110456786.8 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113178231A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 司昊睿;周鹏 | 申请(专利权)人: | 中国科学院武汉病毒研究所 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B45/00 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二代 技术 consensus 序列 统计分析 可视化 方法 | ||
1.一种基于二代测序技术的consensus序列统计分析方法,其特征在于,包括如下步骤:
S1、获取二代测序数据中的consensus序列;
S2、对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;
S3、对每条序列中所述gaps和/或简并碱基的类型、个数和位置进行统计,并获取每条序列的长度;
S4、分别计算所述每条序列的序列覆盖度和所述gaps和/或简并碱基位置的标准差,输出结果,完成数据统计分析。
2.如权利要求1所述的基于二代测序技术的consensus序列自动分析方法,其特征在于,步骤S1中,所述consensus序列的文本格式为fasta格式。
3.如权利要求1所述的基于二代测序技术的consensus序列自动分析方法,其特征在于,步骤S2具体操作方法如下:
S21、对所述consensus序列进行文件序列数的统计,并将统计的数值作为总的序列分析次数循环变量;
S22、设置两个gaps和简并碱基位置连续性判定变量,并对序列所含总碱基数进行统计,作为序列碱基分析次数循环变量;
S23、通过for函数和if函数对每条序列中每个位置的碱基进行提取并进行分析判断;
S24、基于所述序列分析次数循环变量和所述序列碱基分析次数循环变量分别对每条序列中每个位置的碱基进行提取和判定,找到每条序列中gaps和/或简并碱基。
4.一种基于二代测序技术的consensus序列可视化方法,其特征在于,包括如下步骤:
S1、获取二代测序数据中的consensus序列;
S2、对所述consensus序列进行文件序列数的统计,之后提取每条序列中每个位置的碱基并进行分析判断,找到每条序列中gaps和/或简并碱基;
S3、设置两个初始变量,用于对所述gaps和/或简并碱基的位置以及所述每条序列的位置进行标定;
S4、将所述标定的gaps和/或简并碱基的位置信息以及每条序列的位置信息载入ggplot2画图包,进行可视化分析结果的展示。
5.如权利要求4所述的基于二代测序技术的consensus序列自动分析方法,其特征在于,步骤S1中,所述consensus序列的文本格式为fasta格式。
6.如权利要求4所述的基于二代测序技术的consensus序列自动分析方法,其特征在于,步骤S2具体操作方法如下:
S21、对所述consensus序列进行文件序列数的统计,并将统计的数值作为总的序列分析次数循环变量;
S22、设置两个gaps和简并碱基位置连续性判定变量,并对序列所含总碱基数进行统计,作为序列碱基分析次数循环变量;
S23、通过for函数和if函数对每条序列中每个位置的碱基进行提取并进行分析判断;
S24、基于所述序列分析次数循环变量和所述序列碱基分析次数循环变量分别对每条序列中每个位置的碱基进行提取和判定,找到每条序列中gaps和/或简并碱基。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院武汉病毒研究所,未经中国科学院武汉病毒研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110456786.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种活塞销
- 下一篇:螺旋缠绕光纤的DAS六分量地震信号解耦与恢复方法