[发明专利]一种基于高通量测序的基因变异检测方法有效

专利信息
申请号: 202010222444.5 申请日: 2020-03-26
公开(公告)号: CN111243664B 公开(公告)日: 2023-04-18
发明(设计)人: 赵霄飞;王思振 申请(专利权)人: 北京泛生子基因科技有限公司
主分类号: G16B20/20 分类号: G16B20/20;G16B20/50;G16B40/00
代理公司: 北京纪凯知识产权代理有限公司 11245 代理人: 关畅;张立娜
地址: 102206 北京市昌平区中*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 通量 基因 变异 检测 方法
【权利要求书】:

1.一种基于高通量测序的基因变异检测方法,包括如下步骤:

(A)对高通量测序数据进行预处理,主要包括碱基质量校正、read去重;

(B)计算测序产生的偏好性,通过偏好性减少支持突变的有效read的数量,获得校正后的支持突变型的read数量;

(C)利用校正后的支持突变型的read数量,计算所有单个样本相关质量,然后得出单个样本变异质量,通过变异质量进行判定;

步骤(C)按照如下进行:

(C1)针对每个需要计算quality的位点,采用如下公式计算family quality,single-strand quality,double-strand quality;

Quality(p,B,b,r)=logr(BIAS(B,p×B,B,b)×(r-1)+1)×10×log10(OR(B,p×B,B,b));

其中,Bias(B,p×B,B,b)=max(0,OR(LS(B,p×B,B,b))-1)*(b÷(b+B))+1;

OR代表比值比;OR的计算公式如下:

OR(B,p×B,B,b)=(B×b)÷(p×B×B);

LS代表Laplace平滑;LS公式如下:

LS(B,p×B,B,b)=Laplace2(Laplace1(B,p×B,B,b));

Laplace1公式为:Laplace1(B,p×B,B,b)=(B+p′,p×B+p′,B+p′,b+p′);

Laplace2公式为:Laplace2(B,p×B,B,b)=(B+p′×α,p×B+p′×α,B+p′×β,b+p′×β);

在Laplace1公式和Laplace2公式中,p′的默认值是0.5;

在Laplace2公式中,α和β公式如下:

α=max(0,p′×((B+p×B)/(B+b)-1));

β=max(0,p′×(B+b)/(B+p×B)-1);

其中:

(1)针对一个family里的reads,让r=2并且使用以下定义计算family quality:

p:步骤(A)reads去重中计算出的碱基质量的阈值所对应的错误概率;

B:从数据实际观测到支持任何等位基因的read数量;

b:从数据实际观测到支持突变等位基因的read数量;

(2)如果高通量测序实验采用PCR扩增方法建库,则r=1.5,如果高通量测序实验采用捕获或者WGS方法建库,则r=1.25;比对到一条染色体链上的families都在一条single-strand上;针对一条single-strand,使用以下定义计算single-strand quality:

p:每个可能的family quality所对应的错误概率;

B:实际观测到支持任何等位基因的family数量;

b:实际观测到支持突变等位基因的family数量;

如果single-strand quality大于最大family quality数值,则让single-strandquality等于最大family quality数值;所述最大family quality如下:对于C:G>T:A突变形式是44,对于T:A>C:G突变形式是48,对于其他SNV突变形式是52,对于所有InDel突变形式是60;

在尝试所有的p之后,取最大single-strand quality作为最终single-strandquality;

(3)每一条single-strand在一条double-strand上的正向或反向;针对一条single-strand,使用以下定义计算double-strandquality:

v1′=v1+v2×min(1,(min(w1+w2,w0)-w1)/w1);

其中v1′是某一条链上的最终变异质量,v1是这一条链的变异质量,即最终single-strand quality,v2是另外一条链上的变异质量,w1是这一条链的family quality的平均值,w2是另外一条链的family quality的平均值,w0等于最大family quality加上10,所述最大family quality如下:对于C:G>T:A突变形式是44,对于T:A>C:G突变形式是48,对于其他SNV突变形式是52,对于所有InDel突变形式是60;

交换v1和v2并且交换w1和w2,根据计算v1′公式的对称性计算v2′;

v2′=v2+v1×min(1,(min(w1+w2,w0)-w2)/w2);

(C2)把double-strand quality定义成单个样本变异质量;

(C3)按照上述(C1)和(C2),分别计算得到tumor样本和normal对照样本的单样本突变质量;然后计算TLOD;TLOD代表变异既不来源于躯体也不来源于胚胎的概率,如下:

首先,计算以下函数的输出值;

TNreward(a1,a2,b1,b2)=maxH(TNrewardBinomial(a1,a2,b1,b2),PLQTN(b2/b1,a2/a1));

其中,TNrewardBinomial(a1,a2,b1,b2)=10/log(10)×(a1×KLBernoulli(b2/b1,a2/a1));其中,KLBernoulli(b2/b1,a2/a1)=(a2/a1)×log((a2/a1)/(b2/b1))+(1-(a2/a1))×log((1-(a2/a1))/(1-(b2/b1)));如果b2/b1=0、a2/a1=0、b2/b1是不定式或者a2/a1是不定式,那么KLBernoulli(b2/b1,a2/a1)=0;如果max(a,-a)<max(b,-b),那么maxH(a,b)=a,否则maxH(a,b)=b;

PLQTN(t,n)=3×10×log10(min(t/n,102.5/3));

TNpenal(a1,a2,b1,b2)=max(0,min(DSVQnormal,PLQ(a2/a1))-12.5×(max(0,OR(a1,a2,b1,b2)-1))2);其中DSVQnormal指的是normal样本的单样本突变质量,也就是normal样本的double-strand quality;OR代表比值比,OR的计算公式如下:OR(a1,a2,b1,b2)=(a1×b2)÷(a2×b1);a1、a2、b1和b2含义如下:

a1:配对normal对照样本中支持任何等位基因的reads的family quality总和;

a2:配对normal对照样本中支持突变等位基因的reads的family quality总和;

b1:tumor样本中支持任何等位基因的reads的family quality总和;

b2:tumor样本中支持突变等位基因的reads的family quality总和;

然后,计算TLOD,计算公式如下:

TLOD(a1,a2,b1,b2)=min(DSVQtumor,PLQ(b2/b1))+TNreward(a1,a2,b1,b2)-TNpenal(a1,a2,b1,b2);

其中,PLQ(f)=90+3×10×log10(f);DSVQtumor指的是tumor样本的单样本突变质量,也就是tumor样本的double-strand quality;

(C4)计算NLOD;NLOD代表来变异来源于胚胎的概率,如下:

首先,针对每个样本,计算每个genotype的genotype likelihood;genotype简称GT,genotype likelihood简称GL;纯合野生型、杂合型和纯合突变型这三种GT的GL的计算方法如下:

纯合野生型的GL计算公式:GL(f,homref)=max(GLPowerLaw(f,homref),GLBinomial(f,homref));

杂合型的GL计算公式:GL(f,hetero)=max(GLPowerLaw(f,hetero),GLBinomial(f,hetero));

纯合突变型的GL计算公式:GL(f,homalt)=max(GLPowerLaw(f,homalt),GLBinomial(f,homalt));

其中,GLPowerLaw(f,homref)=10×3×min(0,log10(0.02×(1-f)/f));

GLPowerLaw(f,hetero)=10×3×min(0,log10(min(f/(1-f),(1-f)/f)));

GLPowerLaw(f,homalt)=10×3×min(0,log10(0.02×f/(1-f)));

GLBinomial(f,homref)=10/log(10)×d×KLBernoulli(min(0.02,f),f);

GLBinomial(f,hetero)=10/log(10)×d×KLBernoulli(0.5,f);

GLBinomial(f,homalt)=10/log(10)×d×KLBernoulli(max(1–0.02,f),f);

KLBernoulli(x,y)=y×log(y/x)+(1-y)×log((1-y)/(1-x));如果x=0、y=0、x是不定式或者y是不定式,那么KLBernoulli(x,y)=0;

并且a指的是支持突变型基因的read数量,d指的是支持任何基因型的read数量,f=a/d是突变频率;

然后,计算NLOD;NLOD=max(Qtumorhomref,Qnormalhomref);

其中,在tumor样本上,Qtumorhomref=-3-max(GL(f,homalt),GL(f,hetero));

其中在配对的normal样本上,Qnormalhomref=GL(f,homref)-max(GL(f,homalt),GL(f,hetero));

(C5)根据如下公式计算最终变异质量:min(TLOD,NLOD+31);

如果最终变异质量至少是60,则判定为阳性并且输出变异形式;否则判定为阴性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京泛生子基因科技有限公司,未经北京泛生子基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010222444.5/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top