[发明专利]一种基于局部异常因子的拷贝数变异检测方法在审
申请号: | 201910381315.8 | 申请日: | 2019-05-08 |
公开(公告)号: | CN110310704A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 袁细国;李俊萍;李杰;张军英;杨利英;习佳宁 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拷贝数 低敏感度 异常因子 检测 变异区域 变异检测 算法 预处理 参考序列 测序过程 程度检测 仿真数据 数据异常 正确率 遗漏 测试 发现 | ||
1.一种基于局部异常因子的拷贝数变异检测方法,其特征在于,所述基于局部异常因子的拷贝数变异检测方法包括以下步骤:
第一步,从bam文件中提取出每个窗口的read depth值;将一维read depth值进行scaling计算,scaling计算首先将数据进行0均值归一化处理,将read depth处理成大于0的值和小于0的值,之后将read depth小于0的窗口进行某倍数的扩增;
第二步,对处理完的数据进行segment计算,将散乱的数据分割成长度不等的几个片段;将segment后的一维read depth数据加上位置信息转化成二维数据;
第三步,用局部异常因子检测算法对产生的数据进行计算;通过局部异常因子算法将产生的一维read depth值转化成一组score值,通过score的值,很容易找到变异区域;
第四步,获取了一组score值,使用箱形算法针对本组score值将较大的数据筛选;
第五步,得到变异区域,确定变异是丢失还是增添。
2.如权利要求1所述的基于局部异常因子的拷贝数变异检测方法,其特征在于,所述第一步从bam文件中提取出每个窗口的read depth值,对数据进行GC校正;将一维read depth值进行scaling计算,scaling计算首先将数据进行0均值归一化处理,将read depth处理成大于0的值和小于0的值;将read depth小于0的窗口进行某倍数的扩增,倍数通过将50个最大的read depth值与50个最小read depth的绝对值相除所获得的比值,计算增加deletion区域read depth同正常区域的差异性。
3.如权利要求1所述的基于局部异常因子的拷贝数变异检测方法,其特征在于,所述第三步的用局部异常因子检测算法对产生的数据与其位置信息构造成二维数据进行计算,首先确定一个参数K,计算出该点A的第K距离,根据第K距离确定第K邻域{B1,B2...Bk},也就是在第K距离内所有点的集合;再对K邻域内的每一个点Bi计算出第K距离,倘若A点属于Bi点的K邻域则两者之间的距离是第K距离,若不是的话两点的距离则是A与Bi的可达距离,欧式距离;A点将A到邻域B的每个点的距离相加除以邻域点的个数可获得A点的可达密度,同时也计算出B邻域中每个点的可达密度;最后将A点的可达密度与邻域内每个点的可达密度和的平均值相除,获得的比值就是该点的局部异常因子。
4.如权利要求1所述的基于局部异常因子的拷贝数变异检测方法,其特征在于,所述第四步使用箱形算法针对本组score值将数据筛选包括:(1)取这组score的四分位点,Q1.Q2和Q3;(2)计算Q3+1.5*(Q3-Q1)获得这组数据的上界upper;(3)score值大于上界的位点当做变异点。
5.如权利要求1所述的基于局部异常因子的拷贝数变异检测方法,其特征在于,所述第五步的score小于upper区域的区域是正常区域,将区域read depth的平均值作为标准;若变异区域的read depth值大于标准值,区域为增添duplication变异,若该区域的readdepth值小于标准值,则认为该区域的变异类型是丢失deletion。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910381315.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:药物的预测方法、装置及计算机设备
- 下一篇:支持SIMD的序列比对方法及装置