[发明专利]一种识别DNA大片段缺失的方法和系统有效
申请号: | 201810114734.0 | 申请日: | 2018-02-06 |
公开(公告)号: | CN108220404B | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 糜庆丰;郭怿盈;刘宇彬;钟婉平;向书芹;吴春求;黄铨飞;刘丽菲 | 申请(专利权)人: | 东莞博奥木华基因科技有限公司 |
主分类号: | C12Q1/6858 | 分类号: | C12Q1/6858;C12M1/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 523808 广东省东莞市松山湖高新技*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大片段缺失 测序 目标缺失 片段区域 同一染色体 待测样本 检测结果 检测区域 缺失类型 全基因 检测 检出 加权 内参 参考 分析 | ||
1.一种识别DNA大片段缺失的方法,所述方法用于非疾病诊断目的,包括步骤:
S1:在目标缺失片段区域内设定至少3个检测区域,其中2个检测区域分别位于目标缺失片段两端,在目标缺失片段区域外同一染色体上设置内参区域,内参区域个数≤检测区域个数;
S2:根据二代测序法获得的检测区域测序深度和内参区域测序深度,在参考集中找出与待测样本相似性高的若干个已知样本构成相似集,其中,所述参考集由已知样本构成;
S3:在相似集中,根据已知样本与待测样本的相似性,加权分析各缺失类型的已知样本支持度,支持度最高且超过阈值的缺失类型为待测样本的缺失类型。
2.根据权利要求1所述的方法,其特征在于:步骤S2进一步包括:根据二代测序法获得的检测区域测序深度和内参区域测序深度,计算样本的特征值,所述特征值为同一样本的检测区域测序深度与内参区域测序深度的比值,根据样本的特征值,在参考集中找出与待测样本相似性高的若干个已知样本构成相似集。
3.根据权利要求1所述的方法,其特征在于:步骤S2中,“在参考集中找出与待测样本相似性高的若干个已知样本构成相似集”具体包括:计算待测样本与参考集中所有已知样本之间的度量相似性的距离,选取与待测样本相似性高的前X个已知样本构成相似集,X是不大于20的整数且不大于已知样本总量的10%。
4.根据权利要求3所述的方法,其特征在于:“度量相似性的距离”选自马氏距离、明氏距离、曼哈顿距离、切比雪夫距离、兰氏距离、欧氏距离。
5.根据权利要求4所述的方法,其特征在于:计算待测样本与参考集中所有已知样本之间的欧式距离,采用下述公式:
Dij=
其中,i表示待测样本编号,j表示已知样本编号,Dij表示待测样本i与已知样本j的欧式距离;FjM表示已知样本j第M个特征值,FiM表示待测样本i第M个特征值,所述特征值为同一样本的检测区域测序深度与内参区域测序深度的比值。
6.根据权利要求1所述的方法,其特征在于:步骤S3具体包括:在相似集中,对已知样本按与待测样本的相似性从高到低赋以从大到小的权重;统计各缺失类型的已知样本权重总和,作为各缺失类型的已知样本支持度;以权重总和最高且超过阈值的缺失类型为待测样本的缺失类型。
7.根据权利要求1所述的方法,其特征在于:加权分析的权重赋值方式选自等差数列、等比数列,主成分分析。
8.根据权利要求1所述的方法,其特征在于:参考集中至少30个已知样本,若已知样本个数≥150时,由已知样本直接组成参考集,否则,利用已知样本进行交叉验证获得最优训练集作为参考集。
9.一种识别DNA大片段缺失的系统,包括:
设计模块:用于在目标缺失片段区域内设定至少3个检测区域,其中2个检测区域分别位于目标缺失片段两端,在目标缺失片段区域外同一染色体上设置内参区域,内参区域个数≤检测区域个数;
分析模块:用于根据二代测序法获得的检测区域测序深度和内参区域测序深度,在参考集中找出与待测样本相似性高的若干个已知样本构成相似集,其中,所述参考集由已知样本构成;
加权模块:用于在相似集中,根据已知样本与待测样本的相似性,加权分析各缺失类型的已知样本支持度,支持度最高且超过阈值的缺失类型为待测样本的缺失类型。
10.根据权利要求9所述的系统,其特征在于:所述系统还包括:测序模块,设于分析模块前,用于对样本进行建库和二代测序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞博奥木华基因科技有限公司,未经东莞博奥木华基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810114734.0/1.html,转载请声明来源钻瓜专利网。