[发明专利]一种基于滤波策略的高容错基因组复杂结构变异检测方法有效
申请号: | 202010197240.0 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111445950B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 张选平;刘佳琦;王嘉寅;陈恒伟;黄毅 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B40/20;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 滤波 策略 容错 基因组 复杂 结构 变异 检测 方法 | ||
1.一种基于滤波策略的高容错基因组复杂结构变异检测方法,其特征在于,包括以下步骤:
S1、对SAM格式的输入文件进行预处理,遍历最优质量比对读段中的CIGAR字段;
S2、根据比对后的CIGAR字段和变异分数计算准则,计算出各个位点在当前读段对应的变异分数,并将其预先保存在每个位点的变异分数集合中,位点i的变异分数Si为:
其中,多次计算位点i的变异分数并分别记作{Si1,Si2,...,Sij},j表示覆盖位点i的一条条读段,k为窗口半径,位点i变异分数依赖于(i-k,i+k)范围的变异程度;Cj(i)为逻辑函数,表示在第j个读段中位点i在某个具体的比对结果中的变异情况;
S3、统计每个位点的变异分数集合中的平均数当作该位点最终的变异分数并得到此样本的变异分数函数;
S4、对变异分数函数进行卡尔曼或高斯滤波,得到滤波降噪后的变异分数函数,变异分数函数卡尔曼滤波过程如下:
S4011、通过位点i-1的最优预估值Si'-1确定位点i的变异分数预测值变异分数预测值如下:
误差方差
卡尔曼增益Ki:
最优预估值Si':
其中,A,B是系统参数,U是系统控制量,Pi为误差方差,H为测量系统参数,I为单位矩阵,ε为测量噪声;
S4012、根据上一次计算的误差方差Pi-1和预测过程噪声ω,预测当前位点i的误差方差
S4013、结合测量系统参数H和测量噪声ε,计算当前位点i的卡尔曼增益Ki;
S4014、结合当前位点i的测量值yi计算当前位点i的最优预估值Si';
S4015、更新误差方差,并重复迭代以上步骤;
变异分数函数高斯滤波过程如下:
S4021、取变异位点i,变异位点i坐标代表其本身变异与否,若变异取1,否则取0;取距离i点最近的k个坐标点,即与位点i相邻的k个位点,根据数据量和计算能力确定k的取值,对于普通计算机建议取值为k=8;
S4022、设定μ和σ,计算出9个位点对应的高斯模板取值Gσj,j=1,2,...,9,即位点i的邻域点的变异与否对位点i是否为伪变异的影响权重;
其中,Gσ是标准差为σ的高斯核;
S4023、对高斯模板归一化,即得到最终的高斯模板;
S4024、计算9个位点的高斯滤波Iσj,并相加得到位点i的高斯滤波的值:
Iσ=I*Gσ
其中,*是卷积操作;
S5、依照滤波后的变异分数函数,设定阈值并分离出结构变异区域,提取特征,设定阈值并分离结构变异区域具体如下:
将滤波后变异分数的均值和方差分别记作μ'和σ',以μ'+3σ'为阈值,将变异分数函数和滤波后的变异分数函数进行上下分割并取出大于μ'+3σ'的区间,分别记作:
SV={(a1,b1),(a2,b2),...,(an,bn)}
SV'={(A1,B1),(A2,B2),...,(An,Bn)}
将左端点A当作对SV集合的筛选的标准,对于(a,b)∈SV,如果且A∈(a,b),保留,反之则丢弃,筛选后SV集合中的每个元素代表一个结构变异区域;
S6、训练支持向量机SVM模型,再用训练好的SVM模型对结构变异区域分类并得到复杂indel结果集,训练SVM模型如下:
S601、将结构变异集合中每个变异看作高维空间中的一个点,结构变异的每个特征代表一个维度;
S602、用高斯核函数将结构变异集合中的元素映射到结构变异特征个数组成的高维空间中,然后在高维空间中训练得到复杂indel和其他结构变异的最优分离超平面;
S603、把得到的模型用于结构变异的复杂indel分类中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010197240.0/1.html,转载请声明来源钻瓜专利网。