[发明专利]一种模拟人群背景信息的基因测序数据仿真系统及方法有效

专利信息
申请号: 201910370937.0 申请日: 2019-05-06
公开(公告)号: CN110491441B 公开(公告)日: 2022-04-22
发明(设计)人: 王申杰;王嘉寅;张选平;韩博;刘涛;管彦芳;王妙;王旭文 申请(专利权)人: 西安交通大学
主分类号: G16B5/00 分类号: G16B5/00;G16B30/00;G16B20/20
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 高博
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 模拟 人群 背景 信息 基因 序数 仿真 系统 方法
【说明书】:

发明公开了一种模拟人群背景信息的基因测序数据仿真系统及方法,输入目标捕获区域文件、测序深度、七种变异类型、变异发生频率和变异在参考基因组上的坐标,根据测序深度确定模板数量,使用接受拒绝算法产生相应模板长度的概率分布,遍历每一条模板并对当前已经遍历完的模板数进行判断,当算法尚未遍历所有模板时,分别对取出的长度模板进行拷贝数变异模拟、单核苷酸位点变异模拟、基因融合模拟、串联重复模拟、倒位变异模拟、插入片段模拟和缺失片段模拟,生成读段并写入测序文件;当已经遍历完所有模板时,测序文件生成完毕;进行读段比对输出模拟的测序文件及其比对文件,仿真结束。本发明可以简便和快速的获得包含特定变异样本。

技术领域

本发明属于以精准医学为应用背景的数据科学技术领域,具体涉及一种模拟人群背景信息的基因测序数据仿真系统及方法。

背景技术

精准诊疗是现代医学发展的主流方向。精准诊疗的基础是基因大数据分析。近年来,随着世界各国的基因大数据计划纷纷落地,大数据快速积累,各种数据分析软件也应运而生。这其中,变异检测是大数据分析的基础,主流的变异检测软件有Samtools、GATK、Pindel、Delly等数十种。但是,在临床应用中,这些变异检测软件的准确率仍然有待提高,面对多种多样的数据特点和临床任务,假阳性和假阴性的检测结果十分常见。理论研究和实践普遍认为,这些变异检测软件存在如下共性问题:

(1)在参数调试阶段,受到样本提取成本高、突变稀有等客观因素的制约,变异检测软件的开发者缺乏类型多样的样本对变异检测软件进行调试,特别是参数调试。

(2)在软件测试阶段,由于拿到的测试样本中所包含突变的真实情况无从知晓,因而对变异检测软件的准确性无法做出全面和准确的衡量。这在很大程度上影响了下游的基因变异分析软件的选取和参数调试。

因此,迫切需要高通量测序数据模拟软件,来模拟生成大量的测试数据,解决上述两个共性问题。由于客观需求旺盛,目前常见的测序数据模拟软件有:454sim、ART、BEAR、SinC、wgsim、dwgSIM、Grinder、Mason、SeqMaker、GemSIM、simseq、Flowsim、pbsim、genfrag、metasim、pIRS、bamsurgeon等。然而,上述软件大多数仅针对特定场景。与本发明面向的场景相同的软件的特点及其主要不足如下:bamsurgeon的使用需要输入一个比对文件,通过对比对文件的直接修改来生成含有特定变异的比对文件,但是其参数设置不够灵活,局限性较大。GemSIM只支持单核苷酸位点变异的模拟,功能单一。dwgsim支持单核苷酸位点变异、小片段插入删除(英文名称:insert and deletion,英文缩写:indel)、染色体倒位变异和基因融合变异的模拟,但是不支持基因拷贝数变异和串联重复变异的模拟。SinC支持基因拷贝数变异的模拟,以及基于此的单核苷酸位点变异和小片段插入删除的模拟,但是不支持基因融合变异、染色体倒位变异以及串联重复变异的模拟。SeqMaker支持单核苷酸位点变异、小片段插入删除、基因融合变异、拷贝数变异以及倒位变异的模拟,但是不支持大片段的插入、复杂结构变异(英文名称:Complex structural variant,英文缩写:CSV)、串联重复变异的模拟。

基于文献检索的结果,目前没有软件能够全面支持已知的所有主要变异类型,也不能模拟出人群多态,不支持用户按照自身需要训练模板长度分布、相邻位点深度分布、整体深度分布以及质量值分布等几个主要的数据特征;模板是指将参考基因组随机打断成长度为几十到几百个碱基对不等的碱基序列片段。此外,面对海量数据需求,现有软件不具备特定目标精度下样本批量生成、验证变异检测软件的特异度和敏感度指标的功能。目标精度是拷贝数变异的拷贝倍数或者单核苷酸位点变异、插入突变、删除突变、基因融合变异、串联重复变异、倒位变异的频率值。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种模拟人群背景信息的基因测序数据仿真系统及方法,用于模拟生成已知突变结果的测序数据并验证变异检测软件的技术性能指标。

本发明采用以下技术方案:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910370937.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top