[发明专利]多物种未出现k-mer子序列计算和特征分析方法及系统有效

申请号：	201810207512.3	申请日：	2018-03-14
公开（公告）号：	CN108470113B	公开（公告）日：	2019-05-17
发明（设计）人：	章乐;肖铭	申请（专利权）人：	四川大学
主分类号：	G16B30/10	分类号：	G16B30/10
代理公司：	北京市广友专利事务所有限责任公司 11237	代理人：	张仲波
地址：	610044 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种多物种未出现k‑mer子序列计算和特征分析方法及系统，该方法包括：获取原始的物种全基因组数据，并对物种全基因组数据进行数据预处理，获得全基因组序列预处理数据；基于所述物种全基因组序列预处理数据进行不同k值长度下的未出现k‑mer子序列的计算；对不同的多个物种的全基因组数据，进行多物种之间，相同k值长度下共同未出现k‑mer子序列的计算；基于未出现k‑mer子序列的数据结果，进行长度变量分析、GC含量和AG含量的比例统计分析和差异显著性分析、进行Motif发现。该方法能够有效处理多物种全基因组数据，准确计算出未出现k‑mer子序列，并且做有效分析，且有大大提高计算效率。
搜索关键词：	子序列物种全基因组全基因组序列预处理数据特征分析差异显著性分析数据预处理比例统计长度变量计算效率数据结果有效处理有效分析分析发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种多物种未出现k‑mer子序列计算和特征分析方法，其特征在于，所述方法包括：步骤1、获取原始的物种全基因组数据，提取序列数据，并获得反向互补链数据，所述序列数据与反向互补链数据构成预处理数据；步骤2、基于所述预处理数据，进行不同k值长度下的未出现k‑mer子序列计算；步骤3、对多个物种的全基因组数据，进行多物种之间，相同k值长度下共同未出现k‑mer子序列的计算；步骤4、基于步骤2中未出现k‑mer子序列以及步骤3中共同未出现的k‑mer子序列数据结果，进行特性分析；所述步骤4进一步包括：步骤401、分析首次出现LAUPs的k值大小，得到首次出现的k值阈值范围，并将该阈值范围作为后续计算中的k值阈值；步骤402、对所述步骤2中计算出的未出现k‑mer子序列的GC含量和嘌呤含量进行统计；步骤403、比较未出现k‑mer子序列与出现的k‑mer子序列的GC含量与AT含量之间、嘌呤含量和嘧啶之间的差异显著性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川大学，未经四川大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810207512.3/，转载请声明来源钻瓜专利网。

上一篇：新配杂交组合表型的预测方法
下一篇：基于单样本的二代测序数据分析肿瘤突变负荷的方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多物种未出现k-mer子序列计算和特征分析方法及系统有效

专利文献下载