[发明专利]一种编码区域遗传变异致病性分类的数据处理系统与方法有效
申请号: | 201811374374.4 | 申请日: | 2018-11-19 |
公开(公告)号: | CN109616155B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 诸峰 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G16B20/50 | 分类号: | G16B20/50 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 编码 区域 遗传 变异 致病性 分类 数据处理系统 方法 | ||
1.一种编码区域遗传变异致病性分类的数据处理系统,其特征在于,所述系统基于ACMG指南为理论依据构建,所述系统包括依次连接的变异位点发现模块、变异位点注释模块、数据及资源加载模块、致病性判别与分类模块和结果解释与验证模块,针对目标基因集、全外显子组测序数据,实现对大规模样本及海量变异位点信息的半自动和系统化的处理,其中:
变异位点发现模块,用于找寻编码区域内遗传变异致病性变异位点的具体位置;所述变异位点包括SNPs和小片段的INDELs;
变异位点注释模块,用于对变异位点进行信息注释,并生成与每个所述变异位点对应的数据文件;所述信息注释包括所述变异位点所在染色体、参考等位基因、替换等位基因、所在外显子位置、罕见性、所在基因、氨基酸变化、各类可计算工具对变异有害性计算得分及预测结果、不同人群中变异频率信息的注释;
数据及资源加载模块,用于读取致病性判别的外部资源文件和所述数据文件;所述外部资源文件包括所述致病性判别的基因列表、Clinvar、OMIM、dbscSNV和dbNSFP数据库;所述注释数据加载单元用于读取所述数据文件并存储;
致病性判断与分类模块,用于计算所述数据文件中每一所述变异位点中所有判别项的取值,并对每一判别项进行打分,将所有判别项按打分进行汇总操作,并根据汇总的情况对所有遗传变异的致病性进行分类;所述判别项包括PVS1、PS1、PS4、PM1、PM2、PM4、PM5、PP2、PP3、PP5、BS1、BS2、BP1、BP3、BP4、BP6、BP7和BA1;
结果解释和验证模块,包括结果解释单元和验证单元,结果解释单元用于给出致病性判别与分类模块的判别结果和分类结果的分类依据,并给出可视化界面,供人工参考,根据实际情况作出遗传变异的致病性判别;验证单元用于对遗传变异的致病性分类与Clinvar、InterVar遗传变异数据解读工具结果进行比对,若分类与Clinvar、InterVar遗传变异数据解读工具结果进行比对的比对结果不一致,则需要着重标识出来,由人工进一步进行审核,并对分类进行确定。
2.根据权利要求1所述的一种编码区域遗传变异致病性分类的数据处理系统,其特征在于,所述变异位点发现模块包括序列比对与映射单元、序列数据预处理单元和SNPs与小片段INDELs变异发现单元;所述序列比对与映射单元用于接收由序列数据构成的原始测序数据,并将序列数据映射到参考基因组上;所述序列数据预处理单元用于对映射到参考基因组上的序列数据做预处理操作;所述SNPs与小片段INDELs变异发现单元用于识别预处理后的序列数据相对参考基因组的变异位点,并计算每一所述变异位点的基因型。
3.根据权利要求2所述的一种编码区域遗传变异致病性分类的数据处理系统,其特征在于,所述变异位点发现模块输入为fastq格式的原始测序数据文件,所述变异位点发现模块输出为包含所有变异位点的vcf格式文件。
4.根据权利要求3所述的一种编码区域遗传变异致病性分类的数据处理系统,其特征在于,所述变异位点发现模块使用BWA-MEM算法完成所述原始测序数据的映射操作;所述变异位点发现模块使用GATK工具实现对所述变异位点的寻找操作。
5.根据权利要求1所述的一种编码区域遗传变异致病性分类的数据处理系统,其特征在于,所述变异位点注释模块包括位点注释单元,所述位点注释单元对所述SNPs和所述小片段INDELs进行注释,并能够选择指定所述变异位点进行信息注释;具体过程如下:首先解析由变异位点发现模块生成的VCF文件,输出文件为包含变异染色体编号、变异坐标起点终点位置、参考等位基因、替换等位基因;随后以该文件作为输入,得到包含基因名、基因区域、转录组编码、蛋白编码信息的输出文件;紧接着,通过氨基酸、序列数据资源,获得变异所在的外显子位置,并对变异的类型进行分类,得到变异碱基的变化以及氨基酸的变化信息;并分析变异是否发生在剪接位点,并获取该剪接位点编码;最后,借助dbNSFP数据库资源,得到变异的SIFT、Polyphen2、MutationTaster、LRT、FATHMM、CADD、MetaSVM、Clinvar、InterVar功能预测工具的分数和预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811374374.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:测序深度的矫正方法及装置
- 下一篇:一种基因测序数据存储方法和装置