[发明专利]基于基因序列的物种快速查找及建库方法、系统和介质有效
申请号: | 201911283115.5 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111063394B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 马丑贤;李根;王振国;冯博伦;徐霞丽;杨耀;杨仁武;蒋艳凰 | 申请(专利权)人: | 人和未来生物科技(长沙)有限公司 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G06F16/903 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 邹大坚;刘畅舟 |
地址: | 410000 湖南省长沙市长沙高*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 基因 序列 物种 快速 查找 方法 系统 介质 | ||
1.一种基于基因序列的物种快速查找方法,其特征在于,包括以下步骤:
1)输入包含待查找的未知物种的特征信息的集合A,所述特征信息包括未知物种的采样基因序列子序列及其反向互补序列中字典序的最小值K*j,i1,采样基因序列子序列在所属基因序列中的起始位置Pj,i1以及判断K*j,i1是否为采样基因序列子序列反向互补序列的逻辑符号Dj,i1;
2)将集合A分别与预设的已知物种数据库匹配计算相似性,包括:
2.2)遍历选取一个集合A中的特征信息作为当前特征信息,根据当前特征信息匹配当前物种数据库中的内容,并根据匹配结果获得被选取的已知物种参考基因序列中的参考基因段,计算当前特征信息对应的采样基因序列与参考基因段的相似性,所述已知物种参考基因序列为同一已知物种的基因序列首尾相接,并删除基因序列中被屏蔽的碱基后的基因序列,包括:
2.2.1)选取集合A中的一个特征信息作为当前特征信息;
2.2.2)获取当前已知物种数据库对应的位图向量,根据当前特征信息中K*j,i1的位图索引结果验证当前已知物种数据库中是否存在匹配当前特征信息的内容,是则进入下一步,否则跳转步骤2.3),包括:
2.2.2a)初始化位图偏移值idx为0,将K*j,i1的每个字符映射为对应的自然数;
2.2.2b)按照从左往右的顺序遍历选取K*j,i1上的字符作为当前字符,将idx左移2位,与当前字符对应的自然数做按位或运算,并将计算所得结果作为新的idx;
2.2.2c)判断K*j,i1上的字符是否遍历完毕,是则根据idx的值找到位图向量的对应位置,否则返回上一步;
2.2.2d)判断位图向量的对应位置的元素是否为1,若为1,进入步骤2.2.3),否则跳转步骤2.3);
2.2.3)根据当前特征信息中K*j,i1对应的位图向量位置和当前特征信息所占字节数计算偏移量,获取当前已知物种数据库偏移量位置的对应内容,将内容解码获得被选取的已知物种参考基因序列中的参考基因段起始位置,
2.2.4)根据起始位置和当前特征信息对应的采样基因序列的长度在已知物种参考基因序列上截取参考基因段,计算当前特征信息对应的采样基因序列与参考基因段的相似性;
3)根据相似性最大的匹配结果确定待查找基因序列的物种查找结果。
2.根据权利要求1所述的基于基因序列的物种快速查找方法,其特征在于,步骤1)之前还包括获取待查找的未知物种的特征信息的集合A的步骤,具体为:
对未知物种的基因序列集多点采样,得到采样包,所述采样包包括指定数量的采样基因序列,提取采样包中采样基因序列的子序列并进行规范化处理得到未知物种的特征信息的集合A。
3.根据权利要求1所述的基于基因序列的物种快速查找方法,其特征在于,步骤2)具体包括以下步骤:
步骤2.2)之前包括:
2.1)遍历选取一个已知物种数据库作为当前已知物种数据库;
步骤2.2)之后包括:
2.3)判断集合A中的特征信息是否已经遍历完毕,是则选取每条采样基因序列与当前物种参考基因段相似性的最大值并进入下一步,否则跳转步骤2.2);
2.4)判断已知物种数据库是否已经遍历完毕,是则进入步骤3),否则跳转步骤2.1)。
4.根据权利要求1所述的基于基因序列的物种快速查找方法,其特征在于,步骤3)具体为:针对预设的已知物种,分别将同一物种对应的所有相似性结果进行加权计算,使得加权计算结果最大时的已知物种为待查找基因序列的物种查找结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人和未来生物科技(长沙)有限公司,未经人和未来生物科技(长沙)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911283115.5/1.html,转载请声明来源钻瓜专利网。