[发明专利]一种基因变异识别方法、装置和存储介质有效
申请号: | 201910251891.0 | 申请日: | 2019-03-29 |
公开(公告)号: | CN109994155B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 胡志强 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B20/20 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 变异 识别 方法 装置 存储 介质 | ||
本公开涉及一种基因变异识别方法、装置和存储介质,其中,该方法包括:获取基因变异候选位点对应的至少一个基因测序读段;根据所述至少一个基因测序读段的属性信息,确定所述基因变异候选位点的序列特征和非序列特征,其中,所述序列特征为与位点的位置相关的特征;基于所述序列特征和所述非序列特征,对所述基因变异候选位点的基因变异进行识别。本公开实施例的可以将基因的序列特征和非序列特征相结合,更加全面地分析基因变异位点的特征,增强基因变异识别的准确性。
技术领域
本公开涉及计算机技术领域,尤其涉及一种基因变异识别方法、装置和存储介质。
背景技术
随着生物技术的发展,通过基因测序技术可以测定人类基因的序列,基因序列的分析可以作为进一步基因研究和改造的基础。目前,基因的二代测序技术相比于一代测序技术而言,极大地提高了基因测序的效率,降低了基因测序的成本,并且保持了基因测序的准确行性。第一代测序技术如果完成一个人类基因组的测序可能需要3年的时间,而使用二代测序技术则可以将时间缩短为仅仅1周。
虽然二代测序技术可以生成更大的原始基因测序数据,但是同时还会产生更多的噪声和错误。如何从海量的基因测序数据中识别体细胞基因的变异,筛掉胚系基因变异以及由于噪声和错误带来的干扰,对于二代测序技术的应用具有重要意义。
发明内容
有鉴于此,本公开提出了一种基因变异识别方案。
根据本公开的一方面,提供了一种基因变异识别方法,所述方法包括:
获取基因变异候选位点对应的至少一个基因测序读段;
根据所述至少一个基因测序读段的属性信息,确定所述基因变异候选位点的序列特征和非序列特征,其中,所述序列特征为与位点的位置相关的特征;
基于所述序列特征和所述非序列特征,对所述基因变异候选位点的基因变异进行识别。
在一种可能的实现方式中,所述属性信息包括序列属性信息;根据所述至少一个基因测序读段的属性信息,确定所述基因变异候选位点的序列特征,包括:
根据所述基因变异候选位点的基因位置信息,确定所述基因变异候选位点所在的预设位点区间;
获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息;其中,所述序列属性信息为与位点的位置相关的表征基因属性的信息;
根据所述预设位点区间中每个位点的序列属性信息,生成所述基因变异候选位点的序列特征。
在一种可能的实现方式中,所述获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息,包括:
确定所述至少一个基因测序读段在所述每个位点的基因类型;
统计所述每个位点对应的每种基因类型的基因数量。
在一种可能的实现方式中,所述获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息,包括:
根据每个基因测序读段的基因序列与参考基因组的基因序列进行比对的比对结果,确定每个基因测序读段在所述每个位点的缺失基因的基因类型;
统计所述至少一个基因测序读段在所述每个位点上每种基因类型的缺失基因数量。
在一种可能的实现方式中,所述获取所述至少一个基因测序读段在所述预设位点区间中每个位点的序列属性信息,包括:
根据每个基因测序读段的基因序列与参考基因组的基因序列进行比对的比对结果,确定每个基因测序读段在所述每个位点的插入基因的基因类型;
统计所述至少一个基因测序读段在所述每个位点上每种基因类型的插入基因数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910251891.0/2.html,转载请声明来源钻瓜专利网。