[发明专利]一种精确检测人基因组中DNA病毒的方法有效
申请号: | 201911264769.3 | 申请日: | 2019-12-10 |
公开(公告)号: | CN110951853B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 胡争;崔资凤;许微 | 申请(专利权)人: | 中山大学附属第一医院 |
主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869;G16B20/30;G16B40/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文 |
地址: | 510080 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 精确 检测 基因组 dna 病毒 方法 | ||
1.一种非诊断目的检测人基因组中病毒整合与否及整合位点的方法,包括如下步骤:
1)从数据库收集所有型别的病毒基因组并当作伪染色体,与人基因组的染色体合并,得到混合基因组;
2)提取患者DNA并测序得到患者基因组,与步骤1)所得混合基因组第一次比对;
3)统计步骤2)比对结果中的非人染色体,对于比对到的特定型别的病毒基因组,根据第一次比对读段的长度占比及相似度占比将读段进行归类,所述读段采用如下公式筛选:
LM≥(LM|LS|LH|LI)×0.5;
3×Li+2×LD+LMIS≤(LM+LD)×0.2,
其中,LM表示比对上特定型别病毒的读段长度,LS、LH表示读段上两端比对不上病毒DNA的长度,LI表示读段中间的插入长度,LD表示读段中间的缺失长度,LMIS表示读段上单碱基的错配长度;
4)对于满足步骤3)中两个公式的读段,进行病毒型别和载量的统计,即得人基因组中病毒型别;5)根据步骤4)检测到的人基因组中病毒型别,构建人类和相应病毒型别的参考基因组;
6)将所有第一次比对读段的分别再次比对所述参考基因组;以及
针对特异病毒型别的比对结果,基于嵌合体读段的检测原理进行病毒整合与否及整合位点的检测,即得。
2.根据权利要求1所述的方法,其中所述步骤2)中采用BWA-MEM算法进行比对。
3.根据权利要求1所述的方法,其中所述步骤2)还包括去除PCR重复序列。
4.根据权利要求3所述的方法,其中,采用软件Picard Markduplicates去除PCR重复序列。
5.根据权利要求1所述的方法,其中,所述步骤4)中,对于双端测序读段,两条读段均满足步骤3)中两个公式时,才能进行病毒型别和载量的统计。
6.权利要求1的方法,包括如下步骤:
S1、将所有第一次比对读段单独比对人参考基因组;
S2、将所有第一次比对读段单独比对特定型别的病毒参考基因组;
S3、将所有第一次比对读段比对人和相应型别的混合参考基因组,使用Picard Markduplicates去除比对结果中PCR重复序列;
S4、结合步骤S1和步骤S2的结果,对步骤S3中的比对结果进行读段的统计分类,分成单端嵌合体读段,双端嵌合体读段以及远距离双端跨区域读段;
S5、对于所述双端嵌合体读段,将其合并成一体读段进行第二次比对;对于所述单端嵌合体读段,对嵌合单条读段进行第二次比对;
S6、对步骤S5的比对结果进行读段过滤;
S7、将步骤S6所有过滤后保留的读段按照人基因组的读段位置进行局部聚类,保留读段数目≥3的位点,将位点进行基因位置及功能的注释;以及
S8、将步骤S7注释后的读段进行组装,将组装的序列分病毒及人的部分进行第三次比对所述混合参考基因组,比对结果与权利要求2的BWA-MEM比对结果一致的组装序列进行保留,即得。
7.权利要求6的方法,其中,所述步骤S6中过滤的读段包括以下读段:
跟BWA-MEM比对的结果不一致;
病毒及人的读段过短;
病毒及人的比对交叉读段占比过长;
人的读段部分比对结果不唯一;或
人的读段部分来自DNA低重复区域。
8.权利要求6的方法,其中,所述步骤S7中使用ANNOVAR软件进行基因位置及功能的注释;所述步骤S8中使用IDBA-UD软件进行组装;所述步骤S5中第二次比对和S8中第三次比对均采用BLASTN软件。
9.一种非诊断目的检测人基因组中病毒含量的方法,包括如下步骤:
1)从数据库收集所有型别的病毒基因组并当作伪染色体,与人基因组的染色体合并,得到混合基因组;
2)提取患者DNA并测序得到患者基因组,与步骤1)所得混合基因组第一次比对;
3)统计步骤2)比对结果中的非人染色体,对于比对到的特定型别的病毒基因组,根据第一次比对读段的长度占比及相似度占比将读段进行归类,所述读段采用如下公式筛选:
LM≥(LM+LS+LH+LI)×0.5;
3×LI+2×LD+LMIS≤(LM+LD)×0.2,
其中,LM表示比对上特定型别病毒的读段长度,LS、LH表示读段上两端比对不上病毒DNA的长度,LI表示读段中间的插入长度,LD表示读段中间的缺失长度,LMIS表示读段上单碱基的错配长度;
4)对于满足步骤3)中两个公式的读段,进行病毒型别和载量的统计,即得人基因组中病毒型别;
5)基于步骤4)的病毒型别和载量的统计结果,根据可选的内参基因与所述混合基因组的比对结果进行病毒拷贝数的相对定量,定量公式如下:
其中,CNH为内参基因的拷贝数,默认为2,DV为病毒基因组的有效累加乘深,通过累加计算权利要求1中步骤3)的所有读段对病毒基因组的单碱基位点覆盖次数得到,DH为内参基因的有效累加乘深,通过上述相同方式累加内参基因与权利要求1中混合基因组比对后所有读段的单碱基位点覆盖次数得到,CV为病毒基因组的比对覆盖度,即权利要求1中步骤3)的所有读段涉及的单碱基位点占病毒基因组的长度,CH为内参基因的比对覆盖度,即内参基因比对权利要求1中混合基因的所有读段涉及的单碱基位点占内参基因的长度,LV为测序探针涉及的病毒基因组的有效长度,LH为测序探针涉及的内参基因的有效长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学附属第一医院,未经中山大学附属第一医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911264769.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种洗煤及分选方法
- 下一篇:一种基于运算放大器的超导开关加热器电源