[发明专利]一种基于matK基因的未知植物物种识别数据库的构建方法及数据库有效
申请号: | 202010319607.1 | 申请日: | 2020-04-21 |
公开(公告)号: | CN111681704B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 宁康;白虹;杨朋硕;卢璟详;邹欣桐;李洪军 | 申请(专利权)人: | 华中科技大学鄂州工业技术研究院;华中科技大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G06K9/62;G16B50/00 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
地址: | 436044 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 matk 基因 未知 植物 物种 识别 数据库 构建 方法 | ||
1.一种基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述方法包括步骤:
获取含有matK基因的原始序列数据文件;
提取所述原始序列数据文件中的matK序列和物种注释信息;
对所述matK序列进行质量控制;
根据所述matK序列之间的相似性进行聚类;
根据聚类结果构建所述数据库;
其中,所述根据所述matK序列之间的相似性进行聚类包括步骤:
使用Usearch软件将通过质量控制的所述matK序列按照长度进行排序;
将排序后的所述matK序列输入Uclust软件进行最小相似性为预设值的聚类,以得到第一聚类结果;
获取当前序列与质心序列的相似度和当前序列的ACCESSION号;
将物种注释信息通过ACCESSION 号合并到所述第一聚类结果中;
计算每个群集中每一物种占所在群集中序列的比例;
判断当前物种在群集中占比是否超过预设值;
若是,直接使用所述第一聚类结果的序列结果;
若否,检验和删除小于预设值的所述第一聚类结果中所占比例小于预设值的序列,以得到第二聚类结果,并与所述第一聚类结果合并,以得到最终聚类结果。
2.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述获取含有matK基因的原始序列数据文件包括步骤:
以matK作为关键字在NCBI Nucleotide数据库中进行检索;
下载检索结果;
以Genbank格式保存所述检索结果,以得到所述原始序列数据文件。
3.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述提取所述原始序列数据文件中的matK序列和物种注释信息包括步骤:
获取所述原始序列数据文件的个数N;
将N个所述原始序列数据文件分割为N个单独文件;
对N个所述单独文件进行连续编号;
从每个单独文件中提取matK序列和物种注释信息。
4.根据权利要求3所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述从每个单独文件中提取matK序列包括步骤:
使用最多一种关键字格式对每个所述单独文件进行第一提取matK序列操作,以得到第一提取matK序列信息;
使用最少两种关键字格式对经过所述第一提取matK序列操作后的所有所述单独文件进行第二提取matK序列操作,以得到第二提取matK序列信息;
构建隐尔马可夫模型对经过所述第二提取matK序列操作后的所有所述单独文件进行第三提取matK序列操作,以得到第三提取matK序列信息;
合并所述第一提取matK序列信息、所述第二提取matK序列信息和所述第三提取matK序列信息。
5.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述对所述matK序列进行质量控制包括步骤:
去除连续包含超过两个简并碱基的matK序列;
去除长度小于100和大于2000的matK序列;
去除环境样本序列和物种未被分类的matK序列;
去除冗余序列。
6.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述根据聚类结果构建所述数据库包括步骤:
获取所述聚类结果中的matK序列信息;
根据所述matK序列信息使用Blast命令构建matK序列数据库。
7.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法,其特征在于,所述根据聚类结果构建所述数据库包括步骤:
获取所述聚类结果中的matK序列信息;
根据所述matK序列信息使用Kraken命令构建matK序列数据库。
8.一种计算机系统,其特征在于,所述计算机系统包含基于matK基因的未知植物物种识别数据库,所述数据库由如权利要求1-7中任一项所述方法构建而成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学鄂州工业技术研究院;华中科技大学,未经华中科技大学鄂州工业技术研究院;华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010319607.1/1.html,转载请声明来源钻瓜专利网。