[发明专利]一种单细胞基因融合检测方法有效
申请号: | 202011451710.8 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112509639B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 席瑞斌;金子捷 | 申请(专利权)人: | 北京大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B40/00;G16B20/30 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 闫书宁 |
地址: | 100871 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 单细胞 基因 融合 检测 方法 | ||
1.一种单细胞基因融合检测方法,包括如下步骤:
(1)将单细胞RNA测序数据比对到参考基因组,得到的支持融合的分离序列和不统一序列;
(2)完成步骤(1)后,从分离序列和不统一序列中整合所有的潜在基因融合;
(3)完成步骤(2)后,采用统计模型刻画背景噪声的支持分离序列数的分布,获得每个潜在基因融合的显著性指标;
(4)完成步骤(2)后,训练神经网络学习背景噪声的序列特征,获得每个潜在基因融合为背景噪声的概率;
(5)根据步骤(3)获得的显著性指标和步骤(4)获得的概率,筛选获得显著可靠的潜在基因融合;
(6)从步骤(5)获得的显著可靠的潜在基因融合中筛选符合标准的基因融合;
所述步骤(3)中,所述统计模型为零点膨胀的负二项分布模型;所述零点膨胀的负二项分布模型中重参数化为取零值的概率与零点截断的负二项分布;把潜在基因融合均看作背景噪声来训练出背景噪声的分布;
所述步骤(3)中,利用分离序列的支持总数来评价潜在基因融合的显著性;利用重抽样从零点膨胀的负二项分布中抽取多个背景噪声的分离序列的支持总数,建立正态分布,得到p值;将潜在基因融合划分为两个集合,通过较差集合中的数据来估计出总体错误发现率,然后选择合适的p值的阈值来控制错误发现率;
所述步骤(3)中,采用零点膨胀的负二项分布模型刻画背景噪声的支持分离序列数的分布,获得每个潜在基因融合的显著性指标的步骤如下:
(3-1)对所有潜在基因融合的每个细胞的分离序列支持数套用零点膨胀负二项分布模型,计算出关于未知参数的似然函数l:
(3-2)利用R中的optim函数以及默认参数求解出最优的参数;
(3-3)计算每个潜在基因融合在不同细胞中的分离序列支持总数;
(3-4)将步骤(3-2)中估计出的参数代入零点膨胀负二项分布中,然后从模型中重抽样1000个以上,计算这1000个以上分离序列支持总数的均值和标准差建立分离序列支持总数的正态分布,获得p值:Φ为标准正态分布的分布函数;
(3-5)将有分离序列支持细胞数不小于1%的总细胞数并且有支持的细胞中平均支持数超过1.25的潜在基因融合划分到集合1中,其余的划分到集合2中;选取合适p值的阈值,使得集合2中的p值小于阈值的潜在基因融合数量乘以总潜在基因融合数除以集合2中的潜在基因融合数再除以两个集合中p值小于阈值的潜在基因融合数不超过给定的界;p值小于该阈值的所有潜在基因融合,被认为是显著的潜在基因融合;
所述步骤(4)中,神经网络为双向长短时记忆网络;所述双向长短时记忆网络包括编码、四个长短时记忆层和两个全连接层;
所述步骤(4)中,训练神经网络学习背景噪声的序列特征,获得每个潜在基因融合为背景噪声的概率的步骤如下:
(4-1)根据输入的数据集建立正训练样本和负训练样本;正训练样本从潜在基因融合中抽取,负训练样本为没有噪声序列特征的随机拼接序列;
(4-2)在预训练模型的基础上进行重训练直至收敛;
(4-3)对每个潜在基因融合进行预测,得到概率。
2.如权利要求1所述的方法,其特征在于:所述单细胞RNA测序数据为2个以上单细胞的RNA测序数据。
3.如权利要求1所述的方法,其特征在于:所述步骤(1)中,分离序列和不统一序列比对的位置均为基因组上连续75bp以上碱基序列唯一的区域。
4.如权利要求1所述的方法,其特征在于:所述步骤(2)中,从分离序列和不统一序列中整合所有的潜在基因融合的步骤如下:
(2-1)获得分离序列具体的比对位置,即对应的潜在基因融合位点;
(2-2)将距离不超过3bp的融合位点看作是同一个融合位点,归并得到一个潜在基因融合的列表,并且记录支持每一个基因融合的全部分离序列与不统一序列的数量;
(2-3)去掉只有一个分离序列支持的潜在基因融合;
(2-4)从测序结果中统计每个潜在基因融合相关的两个基因在每个细胞中的表达量,以及融合位点附近200bp的GC含量。
5.如权利要求1所述的方法,其特征在于:所述步骤(6)中,所述标准同时满足①-⑥:①构成融合基因的基因不能是伪基因;②构成融合基因的基因不能是非编码RNA;③构成融合基因的任一基因没有被接受的代号;④融合基因涉及到的断点需要在外显子区域;⑤参与基因融合的基因不能出现在超过5个不同的基因融合中;⑥支持基因融合的不一致序列的数量不能大于分离序列的数量的10倍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011451710.8/1.html,转载请声明来源钻瓜专利网。