[发明专利]一种基于Bionano平台检测长串联重复序列的方法有效
申请号: | 201810191588.1 | 申请日: | 2018-03-08 |
公开(公告)号: | CN108460248B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 李丕栋;周家蓬;王凯;孙贝贝;汪德鹏 | 申请(专利权)人: | 北京希望组生物科技有限公司 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/30 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 陆惠中;王永伟 |
地址: | 102206 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bionano 平台 检测 串联 重复 序列 方法 | ||
1.一种基于Bionano平台检测长串联重复序列的方法,包括如下步骤:
(1)提取样本DNA,采用内切酶对DNA进行酶切、标记、修复、染色,用Bionano Saphyr系统定量处理;
(2)构建基于内切酶酶切位点的Bionano参考基因组;
(3)对原始数据进行信噪比过滤;
(4)将过滤后的数据比对到步骤(2)的参考基因组;
(5)对比对后的数据进行质量评估,如果质量不合格,则终止分析,如果质量合格,则进行步骤(6);
(6)构建朴素贝叶斯分类器机器学习模型,利用朴素贝叶斯分类器对样本中指定区域的reads假阳性位点进行过滤;
(7)矩阵构建,根据reads在参考基因组上的比对情况结合reads上刻痕的距离信息,构建距离矩阵M,所述刻痕为酶切位点;对缺失位点以0填充,超过10%的reads在相同位置发生插入的位点按照真实插入位点处理,矩阵增加一列数据;
(8)聚类分析,采用欧氏距离计算步骤(7)中构建矩阵的各reads之间的距离,采用平均距离计算组间距离,进行层次聚类分析;
(9)重复单元计数,根据候选reads中刻痕的位置信息,识别重复单元;
(10)确定样本基因型,根据步骤(8)聚类分析中reads的距离关系以及每条reads上的重复单元数目判断样本基因型;
所述的基于Bionano平台检测长串联重复序列的方法,其中所述步骤(6)中的构建朴素贝叶斯分类器机器学习模型的步骤为:
(a)构建数据集
采用HX1数据构建的中国人参考基因组及其Bionano光学图谱数据,将Bionano数据比对到HX1参考基因组上,比对到参考基因组上的位点定为真阳性位点,未比对到的位点定为假阳性位点;分别随机选择1000个真阳性位点和1000个假阳性位点作为数据集;
(b)特征选择
针对Bionano的数据特点,根据reads比对到参考基因组的置信度对位点的强度、信噪比、覆盖度进行加权;同时,结合位点上下游数据得到用于描述该位点的分类特征;
(c)构建模型
基于朴素贝叶斯分类器公式
并通过公式
确定分类结果,其中y表示分类标签,y为0表示假阳性位点,y为1表示真阳性位点,x1至xn表示步骤(b)中所述分类特征的值,n表示所述分类特征的编号;
所述的基于Bionano平台检测长串联重复序列的方法,其中步骤(10)确定样本基因型的方法是根据步骤(8)聚类分析中reads的距离关系,由近及远,排除包含reads数目小于总reads数目5%的类,随后做如下判断:
(i)纯合:reads聚为1类,该类别reads数目占总reads数目的80%~100%,且重复单元的数目仅有1类,则样本基因型为纯合;
(ii)杂合:reads聚为2类,每个类别reads数目占总reads数目的40%~60%,且重复单元的数目有2类,则样本基因型为杂合;
(iii)嵌合体:reads聚为3类,每个类别reads数目占总reads数目的20%~40%,且重复单元的数目有3类,则样本为嵌合体。
2.根据权利要求1所述的基于Bionano平台检测长串联重复序列的方法,其中步骤(b)对位点的强度、信噪比、覆盖度进行加权的公式为:
其中,n表示reads数目;c表示reads的置信度;w表示权重;d、D表示加权前后位点强度,r、R表示加权前后位点信噪比、v、V表示加权前后位点覆盖率。
3.根据权利要求1所述的基于Bionano平台检测长串联重复序列的方法,其中步骤(b)中所述分类特征为:位点加权强度、位点加权信噪比、位点加权覆盖度、当前位点上游比对到参考基因组的位点数目、当前位点上游比对到参考基因组的位点的平均加权强度、当前位点上游比对到参考基因组的位点的平均加权信噪比、当前位点下游比对到参考基因组的位点数目、当前位点下游比对到参考基因组的位点的平均加权强度、以及当前位点下游比对到参考基因组的位点的平均加权信噪比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京希望组生物科技有限公司,未经北京希望组生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810191588.1/1.html,转载请声明来源钻瓜专利网。