[发明专利]基于BRCA1和BRCA2突变的乳腺癌患病风险评估算法在审
申请号: | 201510364732.3 | 申请日: | 2015-06-25 |
公开(公告)号: | CN106295241A | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 马婷婷;刘明明;张鹤;柳泽亮;蔡乐靖;徐飞;陈帼婧;屠勇军;陈贤丰 | 申请(专利权)人: | 杭州圣庭生物技术有限公司 |
主分类号: | G06F19/12 | 分类号: | G06F19/12 |
代理公司: | 杭州赛科专利代理事务所(普通合伙)33230 | 代理人: | 毛斌 |
地址: | 310018 浙江省杭州市杭州经*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及疾病风险评估算法领域,尤其是—乳腺癌患病风险评估算法。本发明公开了一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:1)高通量测序得到BRCA 1和BRCA 2序列;2)筛选出BRCA 1和BRCA 2序列中的高危突变位置;3)建立COX比例风险模型,剔除不显著因素;4)分析各个高危突变因素对个体患病风险的影响;5)重新建立最佳模型,估计模型参数;6)计算个体患乳腺癌的概率;7)预测未来n年内患乳腺癌的概率;考虑样本其他高危风险因素,计算家族相对风险,对上述预测的患病概率进行修正。本发明是根据中国人特异的乳腺癌致病相关突变库,定义BRCA 1和BRCA 2高危突变位置,设计算法,计算样本个体乳腺癌患病的绝对风险,并预测个体未来几年内患乳腺癌的概率。 | ||
搜索关键词: | 基于 brca1 brca2 突变 乳腺癌 患病 风险 评估 算法 | ||
【主权项】:
一种基于BRCA 1和BRCA 2突变的乳腺癌患病风险评估算法,包括以下步骤:a)中国人特异的乳腺癌致病相关突变库的构建:对检测到的突变的致病和有害程度进行注释,通过筛查其中是否含有已发现的,较公认的高危突变;b)将样本中BRCA 1和BRCA 2基因平均分为30个区域,与乳腺癌致病相关突变库中BRCA 1和BRCA 2的高危突变位点进行比对,设定阈值,超过阈值的区域定义为该区域突变;c)建立COX比例风险回归模型,剔除不显著因素:i.截尾值,对样本结局的处理:患乳腺癌样本赋值为“0”,截尾值为“1”,卵巢癌、降低风险性输卵管卵巢切除术、降低风险性乳房切除术、死亡、截止随访时间都不患癌症当做截尾数据;ii样本对应的生存曲线:由于样本数据寻在截尾数据,可以考虑使用半参数模型‑COX比例风险回归模型;首先需要进行比例风险假定,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的生存曲线,即log(‑log)图;若生存曲线交叉,提示不满足PH假定;iii.根据步骤b中的确定的高危突变位置,建立乳腺癌的突变位置与赋值表;iv.建立评估模型,COX比例风险回归模型不直接考察生存函数与协变量(影响因素)的关系,而是用风险函数作为因变量λ(t,x)是具有突变位置X的个体在年龄段t时的风险函数;λ0(t)是年龄段t对应的基准风险率;X=(X1,X2,...,Xp)′表示BRCA 1和BRCA 2中与乳腺癌患病相关的突变位置;d)进行COX比例风险回归模型参数估计,模型右侧分为两部分:非参数部分λ0(t),以及参数部分βj(j=1,2,...,p)。COX模型中的参数是采用最大似然估计法估计的,在队列研究中,样本i(i=1,2…n)具有相同的特征(年龄,患病等);在某一年龄段ti,样本i患病的条件概率:qi=λi(t,x)Σj=inλj(t,x)=λ0(t)eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=inλ0(t)eβ1Xj,1+β2Xj,2+βpXi,p=eβ1Xi,1+β2Xi,2+...+βpXi,pΣj=ineβ1Xj,1+β2Xj,2+βpXj,p]]>在某一年龄段ti,所有样本均患病的概率:L=Πi=1nqi=Πi=1d(eβ1Xi.1+β2Xi.2+...+βpXi.pΣj=1neβ1Xj.1+β2Xj.2+βpXi.p)δi]]>d表示患病样本数。lnL=Σi=1d(β1Xi,1+β2Xi,2+...+βpXi,p)-Σi=1dln(ΣjRiβ1Xj,1+β2Xj,2+βpXj,p)]]>∂(lnL)∂βj=0,j=1,2,3]]>⇒βk(k=1,2,3)]]>的估计值参数的95%CI:进行COX比例风险回归模型参数检验,本发明采用最大似然比检验,假设H0:所有的βi为0,H1:至少有一个βi不为0假设一个包含个协变量的模型,根据最大似然函数估计得到的似然函数值为ln(p),在上述模型中在增加一个协变量,建立一个新的模型,根据最大似然函数估计得到的似然函数值为ln(p+1),检验新增加协变量是否有统计学意义的统计量为χ2=2[lnL(p+1)‑lnL(p)]服从自由度为1的χ2分布;e)进行Cox比例风险回归模型性能评估:i.ROC曲线对应95%的AUC,与其他模型的结果做比较;ii.对于BRCA突变与无BRCA突变的样本,用T检验,比较两组样本的均值差异;P‑value值;iii.对于模型预测到的突变数量(百分比)与实际检测到的突变数之间的差异,用Pearson χ3最优拟合;iv.对于BRCA突变的分类(小样本),用Fish检验每种突变的显著性差异;f)BRCA 1和BRCA 2突变位置分析:i.对乳腺癌患病是否有显著作用就是同过P值来判断;然后使用逐步回归决定是否剔除该变量;ii.通过步骤d的参数估计,可以得到每个突变位置对应的相对风险即该位置突变时的患病风险是未突变时的HRk倍;突变位置的叠加影响,对于一元COX模型输出的相对危险度HRj,指的是每一个协变量Xj为1与为o时的比值:HRj=λ(t,Xj)λ0(t)=λ0(t)eβj×1λ0(t)eβj×0=eβj]]>同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为HR=λ′(t,Xi)‾λ(t,Xi)=λ0(t)eβ1×1+β2×1λ0(t)eβ1×0+β2×0=HR1×HR2]]>对于p个致病突变位置Xi(i=1,2,...,p)HR=HR1×HR2×…×HRp表示在这p个致病突变导致的患病风险性是这p个位置均不发生突变时的HR倍g)个体患病风险:基准风险率h0(t)为步骤11中所有位置均不突变时,各个年龄段对应的风险率。则对于BRCA 1和BRCA 2突变样本来说,对应的风险率函数如下:λ(t,x)=λ0(t)·HRh)个体患病风险的累积概率n年内的乳腺癌发病率Λ(t)=Σk=1niktkeβk]]>tk:第k个年龄段的长度;ik:第k个年龄段的发病率;βk:第k个年龄段的βk=ln(HR),n年后的累计患病风险F(t)=1‑e‑Λ(t)95%CI为:1-e-Λ(t)±1.96var(Λ(t))]]>其中,var(Λ(t))=Σk=1nik2tk2var(βk)e2βk]]>+2Σj<k,k=1nikijtktj[var(βk)var(βj)]1/2eβk+βjcorr(βk,βj).]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州圣庭生物技术有限公司,未经杭州圣庭生物技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510364732.3/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用