[发明专利]基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置有效
申请号: | 202210206029.X | 申请日: | 2022-03-03 |
公开(公告)号: | CN114582429B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 孙群;蒋中华;于中华;陈黎;卢永美;刘卓翀 | 申请(专利权)人: | 四川大学;四川生美思达生物科技有限公司 |
主分类号: | G16B20/50 | 分类号: | G16B20/50;G16B40/20;G06F40/20;G06F40/30;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/048;G06N3/0499;G06N3/047 |
代理公司: | 成都天嘉专利事务所(普通合伙) 51211 | 代理人: | 王朋飞 |
地址: | 610044 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层次 注意力 神经网络 结核 分枝杆菌 耐药性 预测 方法 装置 | ||
1.基于层次注意力神经网络的结核分支杆菌耐药性预测方法,其特征在于,该方法包括以下步骤:
S1、从离体的样本中分离出结核分枝杆菌临床分离株,对分离株进行培养,提取菌株核酸;
S2、对菌株核酸进行全基因组测序,获得菌株的全基因组测序数据;
S3、全基因组测序数据被传输到基因数据质控工具中进行数据质控处理,处理完成后形成质控合格的全基因组测序数据;
S4、质控合格的全基因组测序数据被传输到比对工具中,将质控合格的全基因组测序数据比对到参考基因组上,每个样本生成一个比对结果数据文件;
S5、比对结果数据文件被传输到排序工具中,根据比对坐标,对比对结果数据进行排序;
S6、排序后的比对结果数据被传输到去除重复工具中,进行去PCR重复处理,处理完成后得到去除PCR重复的数据;
S7、去除PCR重复的数据被传输到基因突变点识别工具中,对去除PCR重复的数据进行突变点位识别及硬过滤,生成突变点位识别结果数据;
S8、突变点位识别结果数据被传输到过滤工具中,以去除高变异的PE/PPE基因家族、重复区域和移动原件中的突变;得到过滤后的突变点位识别结果数据;
S9、过滤后的突变点位识别结果数据被传输到注释工具中,对过滤后的突变点位识别结果数据中的突变点位进行突变类型注释,剔除同义突变的突变,得到注释的突变点位识别结果数据;
S10、从S9步骤中得到的注释的突变点位识别结果数据中构建用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量;
所述的突变位置嵌入向量包括突变点位相对于其所在基因的位置信息和该突变的基因在全基因组的位置信息;
所述突变嵌入向量包括发生突变点位的核苷酸替代信息,当变异类型是插入或缺失时,所述突变嵌入向量还包括插入类型标识和插入的序列,以及缺失类型标识和缺失的序列;
所述用于根据突变位置关系进行耐药性预测的突变位置嵌入向量和突变嵌入向量的构建过程是:
根据参考基因组的注释文件中基因的出现顺序,为各基因进行编号,从注释文件中提取各基因的起始位置;从步骤S9得到的突变点位识别结果数据中把每个突变转换为词并定位到相应的基因上,具体为:将每个突变的参考碱基和替代碱基提取出来组合为突变词,若突变类型为插入时,突变词由插入类型标识和插入的序列表示;若突变类型为缺失时,突变词由缺失类型标识和缺失的序列表示;将该突变在全基因组的位置信息减去其所在基因的起始位置,获得该突变在相应基因的相对位置和该基因相对于全基因组的位置信息;
S11、以S10步骤得到的突变嵌入向量和突变位置嵌入向量作为输入,分别传输到结核分枝杆菌的耐药性预测模型工具中,结核分枝杆菌的耐药性预测模型工具根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出预测结果;
所述结核分枝杆菌的耐药性预测模型工具中封装有结核分枝杆菌对多种抗结核药物的耐药性预测模型,其中一个结核分枝杆菌耐药性预测模型对应一种抗结核药物;结核分枝杆菌的耐药性预测模型工具中的多种结核分枝杆菌耐药性预测模型根据输入的突变嵌入向量和突变位置嵌入向量进行预测计算,输出该结核分枝杆菌对多种抗结核药物的耐药性预测结果;所述结核分枝杆菌耐药性预测模型是基于层次注意力神经网络训练得到的;
所述层次注意力神经网络包括突变编码器和基因编码器,突变编码器通过编码每个突变的上下文信息来捕捉突变基因中的突变之间的关系,并通过突变级的注意力机制将突变的表示进一步聚合到突变基因的嵌入中;基因编码器捕捉菌株中基因的上下文信息,利用基因级的注意力机制将菌株中所有基因嵌入汇总到整个菌株表征中;
或者,所述层次注意力神经网络采用两个Transformer编码器;其中一个Transformer编码器作为突变编码器,另一个Transformer编码器作为基因编码器,每个Transformer编码器由两个子层组成,包括一个多头自注意机制和一个引入位置的全连接前馈网络。
2.如权利要求1所述的基于层次注意力神经网络的结核分枝杆菌耐药性预测方法,其特征在于:结核分支杆菌的耐药性预测模型工具中,封装有结核分枝杆菌对异烟肼、利福平、乙胺丁醇、吡嗪酰胺、链霉素、乙硫异烟胺、阿米卡星、卷曲霉素、环丙沙星、左氧氟沙星、贝达喹啉、对氨基水杨酸、卡那霉素、莫西沙星和/或氧氟沙星中一种或多种抗结核药物的耐药性预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学;四川生美思达生物科技有限公司,未经四川大学;四川生美思达生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210206029.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能柔性电池
- 下一篇:一种稻麦生产田间免维护肥水自控温装置