[发明专利]一种基于宏基因组的人腺病毒分子分型和溯源方法及系统有效
申请号: | 202110082315.5 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112687344B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 夏涵 | 申请(专利权)人: | 予果生物科技(北京)有限公司;西咸新区予果微码生物科技有限公司;予果智造科技(北京)有限公司 |
主分类号: | G16B50/00 | 分类号: | G16B50/00;G16B30/00;G16B40/00 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 吴金水 |
地址: | 100000 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 宏基 病毒 分子 溯源 方法 系统 | ||
1.一种基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,包括以下步骤:
构建包含分型层级分类系统的人腺病毒分型数据库,获取人腺病毒的分类单元和完整基因组/标记基因序列,确定人腺病毒每个分类单元的完整基因组或标记基因序列;
获取临床样本的宏基因组测序原始数据,对其进行预处理获得目标宏基因组数据;
利用预设宏基因组测序数据双重比对注释系统分析所述目标宏基因组数据,以所述人腺病毒分型数据库为基础,确定所述临床样本是否有目标人腺病毒分类单元;
当确定所述临床样本中有目标人腺病毒分类单元时,利用预设临床报告系统确定所述目标人腺病毒分类单元对应的目标关联特征,生成人腺病毒分型鉴定报告;
所述构建包含分型层级分类系统的人腺病毒分型数据库,获取人腺病毒的分类单元和完整基因组/标记基因序列,确定人腺病毒每个分类单元的完整基因组/标记基因序列,包括:
从NCBI Taxonomy数据库中提取人腺病毒亚型及基因型名称,建立第一人腺病毒分类单元列表;
按HAdV分型格式标准化分类单元命名,合并不规范的分类单元,构建分型层级分类系统;
从当前公共数据库中下载人腺病毒的完整基因序列及注释信息,获得第一基因序列集;
应用正则公式提取所述完整基因序列的注释信息中分类单元的关键字进行序列分类单元注释,并基于分类单元合法性、序列质量合法性进行过滤,获得第二基因序列集;
将所述第二基因序列集中的序列进行聚类,过滤异常序列,获得第三基因序列集;
基于所述第三基因序列集中序列的分类单元,获得第一人腺病毒分类单元列表,去除所述第一人腺病毒分类单元列表中缺乏有效参考基因序列的第一分类单元,并补充未纳入的具有有效参考基因序列的第二分类单元,获得第二人腺病毒分类单元列表;
将所述第三基因序列集的分类单元注释与所述第二人腺病毒分类单元列表进行校对与标准化,获得人腺病毒分型层级中每个层级结构中的分类单元及其基因序列;
将所述每个层级结构中的人腺病毒分类单元以及基因序列进行存储,并建立人腺病毒分类单元基因参考序列索引,获得目标人腺病毒分型数据库;
所述基因序列包括:基因组和标记基因序列。
2.根据权利要求1所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述利用预设宏基因组测序数据双重比对注释系统分析所述目标宏基因组数据,以所述人腺病毒分型数据库为基础,确定所述临床样本是否有目标人腺病毒分类单元,包括:
将目标人腺病毒分型数据库中的基因序列作为参考序列;
构建将宏基因组数据与参考序列进行比对,确定匹配的参考序列的算法流程;
确定根据所述匹配的参考序列,基于所述目标人腺病毒分型数据库中的参考序列,确定目标人腺病毒分类单元的匹配流程;
将所述算法流程和匹配流程构建为宏基因组测序数据双重比对注释系统;
将所述目标宏基因组数据输入到所述预设宏基因组测序数据双重比对注释系统,确定所述临床样本是否有目标人腺病毒分类单元。
3.根据权利要求2所述基于宏基因组的人腺病毒分子分型和溯源方法,其特征在于,所述算法流程包括:以基因组序列为参考序列的WhScore算法和UniScore算法流程,和以标记基因序列为参考序列的UniScore算法流程;
其中WhScore算法公式如下:
WhScore=max(∑ASsocre(1),...,ASscore(i));
其中:ASscore=∑(identities,mismatches)-∑(gap penalties);
i=参考基因组或基因序列的总数,ASscore(i)表示第i个参考基因组或基因序列的AS得分,identities表示参考基因组或基因序列的一致性,mismatches表示参考基因组或基因序列的错配性,gap penalties表示参考基因组或基因序列的缺失罚分;
UniScore算法公式如下:
UniScore=∑ASscore(unique reads)/(Coverage of genome)
其中:unique reads定义为对齐分数最高的单一类别参考序列,即基因组和基因的比值有且仅有一个的读序,Coverage of genome表示基因组覆盖度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于予果生物科技(北京)有限公司;西咸新区予果微码生物科技有限公司;予果智造科技(北京)有限公司,未经予果生物科技(北京)有限公司;西咸新区予果微码生物科技有限公司;予果智造科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110082315.5/1.html,转载请声明来源钻瓜专利网。