[发明专利]基于智能宏基因组测序数据肿瘤检测的分析系统及方法有效
申请号: | 202110278297.8 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113113085B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 丁文超;薛继统;韩序;周逸文;王珺 | 申请(专利权)人: | 杭州杰毅生物技术有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G06N3/04;G06N3/08;G16B20/20;G16B20/30;G16B40/20 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 黎双华 |
地址: | 310030 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 宏基 序数 肿瘤 检测 分析 系统 方法 | ||
1.基于人工智能的用宏基因组测序数据进行肿瘤检测的分析系统,其特征在于,所述分析系统包括:
(1)用于过滤低质量序列的数据过滤模块;
(2)用于将序列比对至人参考基因组上的数据比对模块;
(3)用于获取样本的染色体波动情况的染色体波动分析模块;
(4)用于判断样本是否含有肿瘤信号的基于人工智能的肿瘤信号识别模块;
所述染色体波动分析模块通过分析基因组上各窗口比对上的reads数,得到样本的染色体波动信号,并检测样本中的染色体波动情况;
所述染色体波动分析模块的具体分析方法包括:
①数据归一化
计算唯一比对到所有常染色体上的序列数量TotalUniq,将样本的常染色体上的唯一比对数据量归一化至5M,并对每个窗口进行归一化;
BINij是染色体i上第j个窗口的唯一比对读长序列数量;
binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量;
②计算染色体波动信号
计算第i条染色体第j个窗口待测样本与参考集数据量的比值fd值,计算公式如下:
其中binRCij是归一化后染色体i上第j个窗口的唯一比对读长序列数量,binlibRCi,j代表参考集中归一化后染色体i上第j个窗口的唯一比对读长序列数量;
③Waviness的计算
用所有bin的标准差之和表示样本的波动情况,计算公式如下:
其中n代表位点总数,μ代表位点平均数;
④PCA-HMM方法分析样本染色体波动
PCA(主成分分析)利用正交变换依次寻找使得数据投影方差最大的方向,得到一系列线性不相关变量;利用PCA获得步骤②中计算得到的染色体波动信号中方差最大的几个主成分,去除噪声,平滑数据;
数据平滑后,基于参考集计算出样本每个bin的z值,接着采用HMM(隐马尔可夫模型)估算每个bin含有波动变异的概率。
2.如权利要求1所述的分析系统,其特征在于,所述数据过滤模块负责对输入的高通量测序数据进行质控,去除低质量数据,保证进入后续分析流程的数据质量可靠;具体过滤条件为:1)去除含有测序接头序列的读长序列reads;2)去除包含两个及以上的N的reads;3)去除含有最低质量值的碱基数超过10%的reads。
3.如权利要求1所述的分析系统,其特征在于所述数据比对模块负责将通过质控的干净数据与人类参考基因组序列比对,只选取能唯一比对到人类参考基因组序列且不允许错配的reads数据进行后续染色体波动分析,将基因组分割成固定长度的连续窗口片段bin,统计比对到每个窗口中的reads数量。
4.如权利要求1所述的分析系统,其特征在于,所述肿瘤信号识别模块通过预先训练好的神经网络,根据染色体波动分析模块输出的结果,判断样本是否含有肿瘤信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州杰毅生物技术有限公司,未经杭州杰毅生物技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110278297.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种测控应答机自主复位控制方法与系统
- 下一篇:用于无人机的气体检测装置