[发明专利]一种基于局部异常因子的拷贝数变异检测方法在审
申请号: | 201910381315.8 | 申请日: | 2019-05-08 |
公开(公告)号: | CN110310704A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 袁细国;李俊萍;李杰;张军英;杨利英;习佳宁 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拷贝数 低敏感度 异常因子 检测 变异区域 变异检测 算法 预处理 参考序列 测序过程 程度检测 仿真数据 数据异常 正确率 遗漏 测试 发现 | ||
本发明属于数据异常程度检测技术领域,公开了一种基于局部异常因子的拷贝数变异检测方法;本发明首先对数据进行预处理,减少了测序过程中带来的误差;本发明使用局部异常因子的算法将低敏感度的拷贝数变异区域的特征凸显出来,更容易,更准确的检测出低敏感度的拷贝数变异位置;操作简单,本发明只需要bam文件和参考序列即可完成检测,并且检测速度较快。同时,通过仿真数据的测试,可以发现本发明的测试结果相对于其它方法来说更为准确。本发明针对低敏感度区域的检测与现有方法做对比,正确率较高。现有技术对于低敏感度的拷贝数变异的检测造成遗漏,而本发明通过使用局部异常因子算法将该类型的变异区域的特征凸显出来,可以准确的检测出变异区域。
技术领域
本发明属于数据异常程度检测技术领域,尤其涉及一种基于局部异常因子的拷贝数变异检测方法。
背景技术
局部异常因子算法是一种基于密度的算法,量化了每个数据的异常程度。整个算法最主要的是一下四个概念:
1.k-邻近距离:对于点p来说,第k个与之最近的点与p点的距离称为点p的k-邻近距离。
2.可达距离:点p与点o的可达距离为点o的k-邻近距离与k到o点的直接距离的最大值。
3.局部可达密度:与点p距离小于等于p的k-邻近距离的点成为k邻近点,点p的局部可达密度就是点p与邻近点的平均可达距离的倒数。
4.局部异常因子:p的邻近点的平均局部可达密度跟点p的局部可达密度的比值。
所以,局部异常因子算法就是对每个点求该点的局部异常因子,也就是该点的异常程度。拷贝数变异:是DNA结构变异的一种情况,包括长度为1kb以上的DNA片段的增添与丢失。
目前,针对新一代测序技术的单样本拷贝数变异检测方法主要有以下几种:1.Read Depth(基于读段深度的检测方法,简称RD);通过窗口的读段深度来检测拷贝数变异;2.Pair-end(双端比对的检测方法);根据比较pair-end两端之间距离(插入片段的长度)与参考序列上的差异来确认拷贝数变异;3.Split Read:将序列进行分割,比较该片段与参考序列的差异来判断拷贝数变异;目前大多数使用read depth方法来检测拷贝数变异,而第二,三种方法大多用来检测其他结构体变异。从测序数据中获得的读段深度与拷贝数变异相关的,发生拷贝数增添区域的读段深度高,而拷贝数丢失的区域读段深度较低,所以可以根据每个窗口的读段深度来检测拷贝数变异。现阶段使用读段深度方法来检测拷贝数变异的主要思想分为两种:
(1)建立概率统计模型;该方法的依据是认为拷贝数与读段深度存在着线性关系,如泊松分布或高斯分布等。所以可以通过建立概率模型来确定拷贝数变异。如ReadDepth。但是该类方法需要假定拷贝数与读段深度服从某种分布,但是因为测序的误差等问题,使得拷贝数与读段深度并非是线性关系,所以该类方法会导致检测结果的不准确。
(2)使用机器学习某种算法检测拷贝数变异:如XHMM,该算法使用了隐马尔可夫模型来检测拷贝数变异;CNV-RF,该算法利用了随机森林算法确定拷贝数变异等。该类算法的准确率相对于第一类来说较为准确,但是大多数算法都是将拷贝数增添与丢失一同检测,忽略了敏感度较低的拷贝变异(拷贝数为3的增添变异和拷贝数为1的丢失)这一类信号不明显的特点,最终的检测结果仅能检测出敏感度较高的拷贝变异区域(拷贝数大于4的增添与拷贝数为0的丢失区域),所以该类方法的灵敏度较低。
综上所述,现有技术存在的问题是:
(1)现有技术对于拷贝数变异的检测准确率较低了;
(2)现有技术对低老拷贝数变异区域的检测造成遗漏。
解决上述技术问题的难度:
1.目前的测序技术及分析过程使得读段深度与拷贝数并非存在线性关系,为了减少这些误差,必须要做好数据的预处理,如GC纠正,去除噪声等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910381315.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:药物的预测方法、装置及计算机设备
- 下一篇:支持SIMD的序列比对方法及装置