[发明专利]测序深度的矫正方法及装置在审
申请号: | 201811614856.2 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109616154A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 张静波;柴景超;伍启熹;王建伟;刘倩;刘珂弟;唐宇 | 申请(专利权)人: | 北京优迅医学检验实验室有限公司 |
主分类号: | G16B20/30 | 分类号: | G16B20/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟;王晓婷 |
地址: | 100195 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 测序 位点 基因组 矫正 权重 相乘 处理模块 划分模块 获取模块 深度确定 正整数 | ||
本发明提供了一种测序深度的矫正方法及装置,其中,上述装置包括:获取模块,用于获取基因组上每个位点的GC含量,以及所述基因组的所有位点的测序深度;划分模块,用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间,其中,N为正整数;确定模块,用于根据每个区间内位点的测序深度和N个区间的平均测序深度确定所述每个区间内不同测序深度的权重;处理模块,用于针对所述基因组的每个位点,分别将测序深度与每个测序深度对应的权重相乘,得到矫正后的每个位点的测序深度。
技术领域
本发明涉及通信领域,具体而言,涉及一种测序深度的矫正方法及装置。
背景技术
一些研究表明,通过扩增和测序引入的GC偏差对染色体非整倍性的敏感性产生了限制作用。在不同测序条件下,例如试剂成分不同、测序温度不同或者簇密度不同,GC偏差可能在样品制备和测序过程中引入,这会导致GC含量过高或GC含量过低的基因组区域的测序数据出现偏差。
相关技术中开发了消除GC偏差的计算方法。HC Fan和SR Quake开发了一种通过局部多项式回归拟合(LOESS回归)的计算方法消除GC偏差,该方法通过基于局部基因组GC含量对每个GC密度给予权重,以通过乘以相应权重矫正每个区域的Reads数目。但是,该方法在计算时可能造成数据轻微失真,会干扰检测的准确性。
针对相关技术中,通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法,容易出现数据失真,结果准确性差等问题,尚未提出有效的技术方案。
发明内容
本发明实施例提供了一种测序深度的矫正方法及装置,以至少解决相关技术中通过局部多项式回归拟合的计算方法来消除测序深度的偏差的方法,容易出现数据失真,结果准确性差等问题。
根据本发明的一个实施例,提供了一种测序深度的矫正装置,包括:获取模块,用于获取基因组上每个位点的GC含量,以及所述基因组的所有位点的测序深度;划分模块,用于根据每个位点的GC含量将所述所有位点按照指定规则分成N个不同区间,其中,N为正整数;确定模块,用于用于根据每个区间内位点的区间平均深度和N个区间的平均深度确定所述每个区间内不同测序深度的权重;处理模块,用于针对所述基因组的每个位点,分别将测序深度与每个测序深度对应的权重相乘,得到矫正后的每个位点的测序深度。
在本发明实施例中,所述划分模块,用于将GC含量落在第一范围内的位点化分在N个不同区间的两端区间内;以及将GC含量落在第二范围内的位点化分在中间区间内,其中,中间区间为所述N个不同区间中,除所述两端区间的其他区间,所述第一范围内的位点数目小于所述第二范围内的位点数目。
在本发明实施例中,所述确定模块,还用于根据以下公式确定所述每个区间内不同测序深度的权重:
W=λall/λi,其中,λi为第i个区间的区间平均深度,W为所述权重,λall为所述N个区间的平均深度,i为正整数。
在本发明实施例中,所述确定模块,还用于通过以下方式确定所述区间平均深度:将区间内所有位点的总深度除以该区间内位点的个数,得到所述区间平均深度。
在本发明实施例中,所述确定模块,还用于通过以下方式确定所述N个区间的平均深度:将所述基因组内所有位点的总深度除以所述基因组内位点的个数,得到所述N个区间的平均深度。
在本发明实施例中,所述装置,还包括:矫正模块,用于根据矫正后的每个位点的测序深度和所述每个位点的GC含量矫正所述每个位点的GC偏好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京优迅医学检验实验室有限公司,未经北京优迅医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811614856.2/2.html,转载请声明来源钻瓜专利网。