[发明专利]考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法有效
申请号: | 201910385057.0 | 申请日: | 2019-05-09 |
公开(公告)号: | CN110232949B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 王嘉寅;王以瑄;张选平;闫新兴;冯旋;赵仲孟 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B30/10;G16B40/00;G16B5/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法,完成数据特征提取;找到微卫星候选区域;利用聚类算法筛选忽略的微卫星候选区域;遍历该区域的读段并进行分割;估计给定测序样本的肿瘤纯度;估计肿瘤组织微卫星的长度分布参数;利用长型微卫星的平均长度分布反映其整体的长度分布;基于包含微卫星指定窗口的覆盖度估计微卫星的平均长度,然后使用更新后的微卫星平均长度迭代估计指定窗口的覆盖度,检测完成纯肿瘤样本长型微卫星;判定长型肿瘤微卫星状态完成广域长度分布估计。本发明解决了由于输入数据的肿瘤样本纯度问题导致的计算偏差,突破测序读段长度对可检出的基因组微卫星的长度限制,实现广域长度检测。 | ||
搜索关键词: | 考虑 肿瘤 纯度 因素 基因组 卫星 广域 长度 分布 估计 方法 | ||
【主权项】:
1.考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法,其特征在于,包括以下步骤:S1、定义数据特征并收集统计读段信息,完成数据特征提取;S2、扫描给定的参考基因组序列,找到微卫星候选区域,记录最大重复单位长度为6bp的微卫星,保存其位置及相关序列;利用聚类算法进一步筛选忽略的微卫星候选区域;确定微卫星数目后,对于每个候选微卫星区域,使用基于k‑mer的算法遍历该区域的读段并进行分割,识别微卫星重复单元与断点;S3、通过计算筛选出的SNVs位置的读段计数,估计给定测序样本的肿瘤纯度;S4、对混合样本中短型微卫星进行检测,使用最大似然估计方法估计肿瘤组织微卫星的长度分布参数;S5、利用长型微卫星的平均长度分布反映其整体的长度分布;采用最大期望算法,基于包含微卫星指定窗口的覆盖度估计微卫星的平均长度,然后使用更新后的微卫星平均长度迭代估计指定窗口的覆盖度,循环迭代至收敛,完成检测纯肿瘤样本长型微卫星;S6、采用独立z检验,判定长型肿瘤微卫星状态完成广域长度分布估计。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910385057.0/,转载请声明来源钻瓜专利网。