[发明专利]一种基于Bionano平台检测长串联重复序列的方法有效
申请号: | 201810191588.1 | 申请日: | 2018-03-08 |
公开(公告)号: | CN108460248B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 李丕栋;周家蓬;王凯;孙贝贝;汪德鹏 | 申请(专利权)人: | 北京希望组生物科技有限公司 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/30 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 陆惠中;王永伟 |
地址: | 102206 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于Bionano平台检测长串联重复序列的方法。本发明的方法通过构建朴素贝叶斯分类器机器学习模型,对Bionano数据进行过滤,去除插入、缺失位点的假阳性错误,并基于比对算法实现长串联重复单元计数,减少运行时间、计算资源的消耗。所述方法还可以结合聚类分析算法和每条reads上的重复单元数目,确定样本基因型为纯合、杂合或者嵌合体。 | ||
搜索关键词: | 一种 基于 bionano 平台 检测 串联 重复 序列 方法 | ||
【主权项】:
1.一种基于Bionano平台检测长串联重复序列的方法,包括如下步骤:(1)提取样本DNA,采用内切酶对DNA进行酶切、标记、修复、染色,用Bionano Saphyr系统定量处理;(2)构建基于内切酶酶切位点的Bionano参考基因组;(3)对原始数据进行信噪比过滤;(4)将过滤后的数据比对到步骤(2)的参考基因组;(5)对比对后的数据进行质量评估,如果质量不合格,则终止分析,如果质量合格,则进行步骤(6);(6)构建朴素贝叶斯分类器机器学习模型,利用朴素贝叶斯分类器对样本中指定区域的reads假阳性位点进行过滤;(7)矩阵构建,根据reads在参考基因组上的比对情况结合reads上刻痕的距离信息,构建距离矩阵M,所述刻痕为酶切位点;对缺失位点以0填充,超过10%的reads在相同位置发生插入的位点按照真实插入位点处理,矩阵增加一列数据;(8)聚类分析,采用欧氏距离计算步骤(7)中构建矩阵的各reads之间的距离,采用平均距离计算组间距离,进行层次聚类分析;(9)重复单元计数,根据候选reads中刻痕的位置信息,识别重复单元;(10)确定样本基因型,根据步骤(8)聚类分析中reads的距离关系以及每条reads上的重复单元数目判断样本基因型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京希望组生物科技有限公司,未经北京希望组生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810191588.1/,转载请声明来源钻瓜专利网。