[发明专利]数据处理方法、装置、存储介质及处理器有效
申请号: | 201711484713.X | 申请日: | 2017-12-29 |
公开(公告)号: | CN108229099B | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 徐寒黎;王伟伟;张静波;刘珂弟;刘倩;唐宇 | 申请(专利权)人: | 北京科迅生物技术有限公司 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡 |
地址: | 100037 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 存储 介质 处理器 | ||
1.一种数据处理方法,其特征在于,包括:
获取样本染色体上的基因序列;
比对所述基因序列与人类基因组参考序列,确定所述样本染色体中与所述人类基因组参考序列唯一匹配的碱基序列reads;
统计每个观测区域bin中所述碱基序列reads的数量,其中,所述观测区域bin为所述样本染色体按照预定分窗条件进行分窗后得到的多个区域bin;
根据多个观测区域bin中所述碱基序列reads的数量确定隐马尔科夫模型;
根据所述隐马尔科夫模型确定基因拷贝数变异CNV,其中,所述拷贝数变异CNV包括:至少一个观测区域bin;
其中,在根据隐马尔科夫模型确定基因拷贝数变异CNV之后,所述方法还包括:
在多个所述观测区域bin中删除所述基因拷贝数变异CNV所包含的观测区域bin;
其中,在多个所述观测区域bin中删除所述基因拷贝数变异CNV所包含的观测区域bin之后,所述方法还包括:
通过平滑样条法对校正区域中所述碱基序列reads的数量进行GC校正,其中,所述校正区域为删除所述基因拷贝数变异CNV后的观测区域bin。
2.根据权利要求1所述的方法,其特征在于,所述隐马尔科夫模型的五元素包括:观测序列、隐状态的序列、隐状态的初始概率、隐状态的转移概率、隐状态的发射概率,根据多个观测区域bin中所述碱基序列reads的数量确定隐马尔科夫模型包括:
确定所述观测序列{Xm}为:多个所述观测区域bin中所述碱基序列reads的数量的序列,m为所述观测区域bin序号,Xm表示序号为m的所述观测区域bin中所述碱基序列reads的数量;
确定所述隐状态的序列{Ym}为:产生不同数目的所述碱基序列reads所对应的所述观测区域bin的隐藏状态的序列,其中,在碱基序列reads的数目高于预定阈值的情况下,确定所述观测区域bin的状态为拷贝数增加,用k=1表示;在碱基序列reads的数目等于预定阈值的情况下,确定所述观测区域bin的状态为拷贝数中性,用k=0表示;在碱基序列reads的数目低于预定阈值的情况下,确定所述观测区域bin的状态为拷贝数缺失,用k=-1表示;Ym=k,Ym表示序号为m的所述观测区域bin的状态;
确定所述隐状态的初始概率为:P(Y1=k)=αk,其中,在k=-1的情况下,αk为所述观测区域bin的状态为拷贝数缺失的概率;在k=0的情况下,αk为所述观测区域bin的状态为拷贝数中性的概率;在k=1时的情况下,αk为所述观测区域bin的状态为拷贝数增加的概率;
确定所述隐状态的转移概率为:表示在序号为km状态,为Ym的情况下,序号为km+1,状态为Ym+1的概率,其中,I为指示函数,在km+1=km的情况下,I=1,在km+1≠km的情况下,I=1,pj为预设概率值,αkm为序号为m的所述观测区域bin在状态为k的情况下的概率;
确定所述隐状态的发射概率为:表示在序号为m,隐状态为Ym=k的情况下,所述观测区域bin中所述碱基序列reads的数量为Xm的概率,σk为预定标准差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科迅生物技术有限公司,未经北京科迅生物技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711484713.X/1.html,转载请声明来源钻瓜专利网。