[发明专利]基于非连续上下文建模和最大熵原则的基因压缩方法有效
申请号: | 201310433453.9 | 申请日: | 2013-09-22 |
公开(公告)号: | CN103546162A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 熊红凯;李平好 | 申请(专利权)人: | 上海交通大学 |
主分类号: | H03M7/40 | 分类号: | H03M7/40 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 连续 上下文 建模 最大 原则 基因 压缩 方法 | ||
技术领域
本发明涉及一种面向超大规模基因序列的信息压缩方法,具体涉及的是一种将非连续上下文建模思想与传统的连续上下文建模思想相结合,并利用最大熵原则得到最终预测概率的统计式压缩方法。
背景技术
DNA是生物生存、延续和发展的重要物质基础,具有重大的科学价值和社会价值。目前,DNA的研究广泛应用于生物学、医学、遗传科学等诸多重要领域,如通过收集和保存DNA信息以保护濒临灭绝的生物物种、基于人类基因序列的信息预测以及找到基因变异规律以治疗癌症肿瘤等。为这些学科研究提供基础实验数据的各种DNA序列测定工程已成为各国重点发展的研究项目。随着这些测序项目的展开,每天都有海量的DNA序列数据产生,相关数据量呈指数方式增长,生物信息数据这种急速的积累增长在人类的科学研究历史中是空前的。存储和使用这些数据的成本已越来越面临着无法承担的规模,如何在有限的存储资源内有效储存急剧膨胀的DNA序列数据成为了计算机专家和生物学家面临的新课题,也是国内外诸多重大计划所面临的前进障碍。因此,采用更有效的压缩编码方式,用较小的存储空间存放较大的基因信息序列是必然的选择。
经过对现有技术的文献检索发现,2000年T Matsumoto和K Sadakane在Genome Informatics上的“Biological sequence compression algorithms”里提出了CTW+LZ方法,将上下文树加权(Context tree weighting,CTW)方法和LZ压缩方法相结合,使用多个编码模型对DNA序列的不同片段上进行压缩;2002年X Chen和M Li等在Bioinformatics上的“DNACompress:fast and effective DNA sequence compression”里提出了DNACompress压缩方法,使用Pattern Hunter工具搜索DNA序列的重复与近似重复片段,提高了方法的整体速度;2005年,G Korodi和I Tabus在ACM Transactions on Information Systems期刊上的“An Efficient Normalized Maximum Likelihood Algorithm for DNA Sequence Compression”中提出了GeNML方法,对具有不同数据特点的DNA片段使用不同的编码策略和概率模型进行压缩;同时还有针对自身片段重复的COMRAD(Shanika Kuruppu等发表于2012年的IEEE/ACM Transactions on Computational Biology and Bioinformatics期刊的“Iterative Dictionary Construction for Compression of Large DNA Datasets”上)、DSRC(Sebastian Deorowicz等发表于2011年的Bioinformatics期刊上的“Compression of DNA sequence reads in FASTQ format”上),Recoil(Vladimir Yanovsky等发表于2011年的Algorithms for Molecular Biology期刊的“ReCoil-an algorithm for compression of extremely large datasets of DNA data”上)等方法;另外利用参考序列结构组成相似的GRS(Congmao Wang等发表于2011年的Nucleic Acids Research期刊的“A novel compression tool for efficient storage of genome resequencing data”上)、GReEn(Armando J.Pinho等发表于2012年的Nucleic Acids Research期刊的“GReEn:a tool for efficient compression of genome resequencing data”上)、SLIMGENE(Christos Kozanitis等发表于2011年的Journal of Computational Biology期刊的“Compressing genomic sequence fragments using SlimGene”上)等方法也逐渐兴起。这些方法将序列视作由特殊字符构成的长字符串,从数据的构成特点出发进行整体处理,有效的提高了压缩效率和压缩时间。但总体而言DNA序列压缩技术仍处于起步阶段,组成基因片段的生物信息特征以及片段内部的细节重复特性并没有被充分发挥利用。在对序列进行统计建模求取概率进而使用算术编码的历程中,几乎所有的压缩方法都是逐一观测符号序列并顺序建模进行预测,然后通过贝叶斯平均法得到最终预测概率,这种过分单纯的预测模式对于获取以非传统规律排列的基因序列形式内的相互关联是十分不利的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310433453.9/2.html,转载请声明来源钻瓜专利网。