[发明专利]对卵巢癌进行筛查、诊断或风险分级的方法和装置在审
申请号: | 201811030743.8 | 申请日: | 2018-09-05 |
公开(公告)号: | CN110880356A | 公开(公告)日: | 2020-03-13 |
发明(设计)人: | 魏国鹏 | 申请(专利权)人: | 南京格致基因生物科技有限公司 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B25/00;G16B30/00;C12Q1/6886 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 韩威威 |
地址: | 210000 江苏省南京市江北新区新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卵巢癌 进行 诊断 风险 分级 方法 装置 | ||
1.用于对卵巢癌进行筛查、诊断或风险分级的一组染色体,该组染色体包含第1到第22号染色体中的至少1条。
2.根据权利要求1所述的一组染色体,其由第1到第22号人类染色体组成。
3.一种计算机可读介质,其上存储有指令,其中当所述指令被处理器执行时,使得计算机执行以下操作:
根据来自受试者(例如人)的样品的第1到22号染色体的染色体不平衡或染色体臂不平衡计算该受试者整体的不平衡度量CScore值;
结合CScore值和所述样品中CA-125的水平,以判断所述受试者是否患有卵巢癌或存在患卵巢癌的高风险。
4.根据权利要求3所述的计算机可读介质,其中通过以下方式计算CScore值:
将受试者(例如人)的全基因组数据序列(例如高通量测序技术获得的全基因组数据序列)比对到参考基因组(例如人的参考基因组Hg19),并例如按照10-1000k/bin(例如50k/bin),平均分成多个段(例如bin);
分别计算第i号染色体长臂覆盖到的段(例如bin)的读长(reads)的平均数(covChriq)和染色体短臂覆盖到的段(例如bin)的读长(reads)的平均数(covChrip);
根据下列公式,计算第i号染色体的R值
或
其中q代表长臂,p代表短臂,Chr为染色体(chromosome)的缩写,i选自1到22号染色体;
基于R值,根据公式(2)计算第i号染色体的Z-score(ZChri):
其中是健康人群所对应的R值的平均数,是健康人群所对应的R值的标准偏差;
或者,根据公式(3a)和(3b)计算第i号染色体相应长臂q的和短臂p的
其中是健康人群所对应的第i号染色体长臂的读长的平均数,是健康人群所对应的第i号染色体短臂的读长的平均数;
如果第i号染色体或染色体臂的Z-score的绝对值大于等于3,则认为该染色体或染色体臂存在不平衡;选择染色体或染色体臂Z-score的绝对值大于等于3的染色体,根据公式(4),求整体的不平衡度量CScore值:
5.根据权利要求3或4所述的计算机可读介质,其中利用CScore和CA-125的水平建立决策树模型,对卵巢癌风险进行预测。
6.根据权利要求3或4所述的计算机可读介质,其中通过R语言建立决策树模型。
7.根据权利要求6所述的计算机可读介质,其中以下步骤建立决策树模型:
(1)构建整体样本数据集,在该整体样本数据集中约50%为卵巢癌样本、约50%为卵巢良性肿瘤样本;
(2)拆分数据,使用R中随机抽样函数“sample”对整体样本数据集进行分割,分别构建训练集和测试集,其中训练集占整体样本的约60%,测试集占整体样本的约40%;
(3)分类树训练数据;
(4)确定决策树模型的最优参数;
(5)任选地,使用决策树模型及相应最优参数对测试集数据进行检验,确定模型最优参数的效果如何。
8.根据权利要求7所述的计算机可读介质,其中通过以下方式构建整体样本数据集:选取样本,将各样本按照CScore、CA-125的水平、类型Type属性和样本号构建整体样本数据集。
9.根据权利要求7所述的计算机可读介质,其中通过以下方式进行分类树训练数据并确定决策树模型的最优参数:使用R中party包的条件推断决策树ctree对训练集进行建模,条件为CScore和CA-125,标签为类型Type,ctree包轮流重复选取样本数据中条件属性的值作为分割点、阈值来分类,最后生成该模型的最优参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京格致基因生物科技有限公司,未经南京格致基因生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811030743.8/1.html,转载请声明来源钻瓜专利网。