[发明专利]合成WGS生物信息学验证在审
申请号: | 201780041482.7 | 申请日: | 2017-06-30 |
公开(公告)号: | CN109791796A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 查尔斯·瓦斯克;拉胡尔·帕鲁勒卡尔;约翰·扎卡里·桑伯恩;斯蒂芬·本茨;马克·约翰逊 | 申请(专利权)人: | 南托米克斯有限责任公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B35/00;G06F16/901;G16C20/60;G16B50/00;G16B20/00 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 潘璐;刘继富 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生物信息学 合成数据 合成 验证 变体 方法和设备 基因组分析 基因组数据 准确度 灵敏度 数据集 再现性 评估 调用 优选 匹配 变更 检测 改进 | ||
1.一种生成合成数字基因组数据集的计算机实现的方法,其包括:
获得参考基因组,并以预定频率和分布将多个SNP引入到所述参考基因组的至少一个常染色体和X染色体中,以制备合成的母系基因组;
以预定频率和分布将多个SNP引入到所述参考基因组的至少一个常染色体和X-染色体或Y-染色体中,以制备合成的父系基因组;和
将所述合成的母系基因组和合成的父系基因组合并为组合的合成数字基因组数据集。
2.根据权利要求1所述的方法,其还包括取样步骤,所述取样步骤对组合的数据集进行取样从而产生多个模拟测序序列。
3.根据权利要求2所述的方法,其中,进行所述取样步骤以模拟至少25×的测序序列覆盖度。
4.根据权利要求2或3所述的方法,其中,使用代表冷冻组织样本的测序序列误差和碱基质量分布来进行所述取样步骤。
5.根据权利要求2、3或4所述的方法,其中,进行所述取样步骤以产生长度为100至400个碱基的模拟测序序列。
6.根据前述权利要求中任一项所述的方法,其中所述预定频率和分布代表SNP的天然发生的频率和分布。
7.根据前述权利要求中任一项所述的方法,其还包括将相对于所述参考基因组识别的SNP的类型和位置的列表包括在组合的数据集中的步骤。
8.根据前述权利要求中任一项所述的方法,其还包括将来自组合的数据集的多个模拟测序序列包括在组合的数据集中的步骤。
9.根据前述权利要求中任一项所述的方法,其还包括向所述合成的母系基因组和合成的父系基因组中的至少一个引入选自SNV、插入缺失和拷贝数改变的另一种基因组变化的步骤,从而产生合成的肿瘤数据集。
10.根据权利要求9所述的方法,其中,所述合成的肿瘤数据集还包含识别所述另一种基因组变化相对于所述合成的母系基因组和合成的父系基因组中的至少一个的类型和位置的列表。
11.根据权利要求9或10所述的方法,其中,所述合成的肿瘤数据集还包含来自所述合成的肿瘤数据集的多个模拟测序序列。
12.根据权利要求9至11中任一项所述的方法,其中,所述SNV是基于COSMIC突变、体细胞TCGA突变和基因组中的随机位置中的至少一种。
13.根据权利要求12所述的方法,其中,将2500至25000个SNV引入所述合成的肿瘤数据集。
14.根据权利要求9至13中任一项所述的方法,其中,所述插入缺失具有1至10个碱基的长度。
15.根据权利要求14所述的方法,其中,在合成的肿瘤数据集中存在100至1000个插入缺失。
16.根据权利要求9至15中任一项所述的方法,其中,所述拷贝数改变选自(i)25个小缺失,每个小缺失的大小为5000bp至500000bp;(ii)25个小串联扩增,每个小串联扩增的大小为5000bp至500000bp,并且每个小串联扩增的拷贝数为2至5;(iii)10个小串联过度扩增,大小为5000bp至500000bp,以及拷贝数为15至30;和(iv)大臂/染色体缺失,每个大臂/染色体缺失的大小为染色体的30%至100%,锚定在端粒上。
17.根据权利要求2或3所述的方法,其中,进行所述取样步骤以产生长度为100至400个碱基的模拟测序序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南托米克斯有限责任公司,未经南托米克斯有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780041482.7/1.html,转载请声明来源钻瓜专利网。