[发明专利]一种基于深度学习的第三代测序数据的自校正纠错方法在审
申请号: | 202210380222.5 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114664379A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 张艳菊;王鹤杰;陈嘉豪;蓝小斌 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 陶平英 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 第三代 序数 校正 纠错 方法 | ||
1.一种基于深度学习的第三代测序数据的自校正纠错方法,其特征在于,包括如下步骤:
1)对第三代DNA测序数据进行质量控制,得到高质量的测序序列,具体是:
1-1)获取原始测序数据的碱基质量分数和序列质量分数,并利用统计分析手段计算其GC含量、序列重复级别;
1-2)对各项条件设定最低阈值,筛选出高于阈值部分的序列,视为高质量的测序序列;
2)将步骤1)得到的高质量测序序列与其对应的参考基因组进行比对,得到比对序列MSA;
3)对高质量测序序列生成的MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;具体是:
3-1)对高质量测序序列生成的MSA进行定长切片,且仅保留范围内比对序列数量大于规定阈值的切片;
3-2)对于每个切片片段,提取其中的碱基频率、测序质量、比对质量三个特征,每种特征作为图片的一个通道;
4)将步骤3)得到的图像视为训练集,训练深度学习模型;具体是:
4-1)将每张高质量测序序列生成的图像,取其中心位置处参考基因组的碱基种类作为其标签;
4-2)使用卷积神经网络对图像进行特征提取和分类,分类结果含义为每张图像中心位置处参考基因组的碱基种类;
5)对未纠错的序列uncorrected reads执行自我比对,得到比对序列uncorrectedMSA;
6)对步骤5)中序列uncorrected reads生成的uncorrected MSA,采用步骤3)的方法进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;
7)对uncorrected reads编码成的图像,输入步骤4)训练完成的深度学习模型中进行分类,若分类结果与真实图像中心位置碱基种类不匹配,则纠正真实图像;具体是:
7-1)对uncorrected reads编码成的图像,使用训练完成的卷积神经网络模型对其中心位置的碱基种类进行预测;
7-2)若预测出的碱基种类与真实图像中心位置碱基种类不匹配,则将真实图像的中心位置修正为预测的种类;
8)对纠正后的图像进行反编码,生成纠错后的corrected reads。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210380222.5/1.html,转载请声明来源钻瓜专利网。