[发明专利]一种动态鉴定人类单细胞染色体拷贝数的方法有效
申请号: | 202210780710.5 | 申请日: | 2022-07-05 |
公开(公告)号: | CN114864000B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 严智强;乔杰;闫丽盈;朱小辉;宋石 | 申请(专利权)人: | 北京大学第三医院(北京大学第三临床医学院) |
主分类号: | G16B20/10 | 分类号: | G16B20/10;G16B20/30;G16B25/20;C12Q1/6869 |
代理公司: | 北京中和立达知识产权代理有限公司 11756 | 代理人: | 张可 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 鉴定 人类 单细胞 染色体 拷贝 方法 | ||
1.一种基于二代测序数据的动态鉴定人类单细胞染色体拷贝数的方法,其特征在于,所述方法包括如下步骤:
(1)单细胞扩增并进行DNA二代测序;
(2)步骤(1)所得测序数据,去除二代测序接头序列、低质量碱基,处理后数据比对至参考基因组,并去掉低比对质量序列以及PCR重复序列;
(3)参考基因组窗口中比对序列计数及窗口GC含量、比对率统计:
将参考基因组划分为连续的窗口,并计算每个窗口中比对的序列数,GC含量和可比对率;
(4)窗口序列数矫正及观测值相对于理论值比例记为“copy ratio”,计算copy ratio的数值:
对每个窗口的序列数进行GC含量和比对率的矫正,得到每个窗口矫正后的序列数,然后计算每条染色体上序列数的中位数;
(5)利用获得的中位数计算观测值相对于理论拷贝数的比值copy ratio,并log2处理,得到log2(copy ratio),对所有样本的所有染色体的这些log2(copy ratio)的分布进行统计,并得到density分布图,找到染色体拷贝之间的最佳划分阈值,从而动态设定不同批次单细胞测序样本的最佳的染色体拷贝数划分阈值;
所述步骤(1)中每个样本测序量为1 G数据量;
所述步骤(2)的具体操作为:将步骤(1)所得测序数据,使用trim_galore质控软件默认参数去除二代测序接头序列、低质量碱基;仅保留处理后序列长度大于36 bp的序列;经过处理后的序列,使用BWA软件以默认参数比对至UCSC hg38人类参考基因组;比对后序列使用samtools软件去除结果中的低比对质量序列、PCR重复序列,得到唯一比对至参考基因组的非重复序列;
其中,步骤(3)的具体操作为:将参考基因组划分为1 Mb大小的窗口,使用readCounter软件统计每个窗口的比对序列数,使用gcCounter软件计算参考基因组每个窗口的GC含量,使用mapCounter软件计算参考基因组每个窗口的可比对率;
所述步骤(4)所述矫正的具体操作为:
随机选取步骤3中所得的5000个窗口,获得每个窗口的GC含量值和比对序列数,使用R软件中的loess套索回归函数拟合GC含量值和原始比对序列数的关系,得到任一GC含量GCi所对应的权重GCiw;进一步使用loess套索回归函数拟合GC矫正后的序列数和比对率的关系,得到任一比对率Mj所对应的权重Mjw,并且得到在给定GC含量GCi和比对率Mj状态下的理论序列数Tij;
在得到上述两种权重后,对于人类参考基因组上任一窗口k,其比对序列数记为Nk,GC含量记为GCi,比对率记为Mj,矫正后序列数如下公式所示:
RNk=Nk×GCiw×Mjw;
进一步,计算矫正后序列数RNk相对于二倍体下相同GC含量和比对率的理论序列数Tij的比例copy ratio=RNk/Tij,并对copy ratio做log2转换,得到该窗口的log2(copyratio),计算公式为:
log2(copy ratio)=log2(RNk/Tij)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学第三医院(北京大学第三临床医学院),未经北京大学第三医院(北京大学第三临床医学院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210780710.5/1.html,转载请声明来源钻瓜专利网。