[发明专利]一种基因组变异检测方法及检测系统有效
申请号: | 202210391526.1 | 申请日: | 2022-04-14 |
公开(公告)号: | CN114999573B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 刘珍;姜玥 | 申请(专利权)人: | 哈尔滨因极科技有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B40/00;G16B20/30;G16B20/20;G06F18/2411;G06F18/214 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 刘子钰 |
地址: | 150000 黑龙江省哈尔滨*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因组 变异 检测 方法 系统 | ||
1.一种基因组变异检测方法,其特征在于,包括如下步骤:
步骤1,将样本的基因组划分成长度相等的连续非重叠窗口,将每个窗口内的参考序列分别和测序序列进行序列比对;
步骤2,对测序序列进行Reads深度信息的标准化处理;
步骤3,根据序列比对结果以及深度信息,确定所述基因组的潜在变异区域;
步骤4,对潜在变异区域的标准化后的测序序列应用De-Bruijn图和哈希表,使用隐马氏匹配算法依次将测序序列与参考序列进行匹配,得到N个最佳单倍体;
步骤5,分别将潜在变异区域内的测序序列与N个最佳单倍体进行比对后得到中间比对结果,N个最佳单倍体与参考序列进行比对后的最终比对结果;
在测序序列与N个最佳单倍体进行比对时的不匹配的区域添加第一空白区域,在N个最佳单倍与参考序列进行比对时的不匹配的区域添加第二空白区域,用于使测序序列、N个最佳单倍体和参考序列的匹配区域的位置完全对应;
步骤6,根据中间比对结果与最终比对结果之间的映射关系,获得每个测序序列与参考序列的校正对齐结果;
采用预先训练的神经网络模型对数据映射关系进行处理,基于基因组的特征、测序序列的整体信息、测序序列所属物种基因组的多态发生情况、全体测序序列的长度分布情况和总体质量值分布情况,设计训练参数;
将样本数据随机划分为训练集和预测集,对训练集和预测集基于采用径向基核函数的支持向量机模型进行多次训练,根据预测集的结果是否正确分别调整训练参数;
正向映射之后的输出值与目标值进行比较,得到预测误差之后,将误差逆映射至各个映射参数,以更新参数,直到参数接近训练目标,达到收敛;
步骤7,根据每个测序序列与所述参考序列的校正对齐结果,确定断点;
步骤8,对断点进行筛选,确定拷贝数变异区域,利用深度信息计算拷贝数变异区域内的拷贝数变异比例,并拷贝数变异比例与阈值进行比较,得到准确的拷贝数变异检测结果。
2.根据权利要求1所述的基因组变异检测方法,其特征在于,所述步骤2具体包括:采用基于中位数归一化的方法对GC含量和Mappability值进行校正。
3.根据权利要求1所述的基因组变异检测方法,其特征在于,所述步骤8中:对断点进行筛选具体包括:将显著值最小的m个断点作为候选断点进行排列,从每轮循环和迭代中移除具有最小显著值的候选断点,并且重新计算两个相邻断点的显著值,循环迭代,直至所有候选断点的显著值都小于终止阈值。
4.根据权利要求1所述的基因组变异检测方法,其特征在于,所述步骤8中:在已获得筛选的断点之后,确定拷贝数变异区域;设两个断点之间的窗口为,待测试样品相对于正常样品的拷贝数变异比例按照下式计算:
其中与参考序列比对的正常样品的Read和待测样品的Read的数量分别是和,并且落入窗口内的Read的数量分别是和,将所述拷贝数变异比例≤0.75和≥1.25分别作为染色体片段缺失和重复的检测阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨因极科技有限公司,未经哈尔滨因极科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210391526.1/1.html,转载请声明来源钻瓜专利网。