[发明专利]基于非连续上下文建模和最大熵原则的基因压缩方法有效
申请号: | 201310433453.9 | 申请日: | 2013-09-22 |
公开(公告)号: | CN103546162A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 熊红凯;李平好 | 申请(专利权)人: | 上海交通大学 |
主分类号: | H03M7/40 | 分类号: | H03M7/40 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于非连续上下文建模和最大熵原则的基因压缩方法,包括:在第一阶段,同时考虑了有参考序列和无参考序列两种实际情况,用字典方法表示基因序列内或间的重复序列,提高压缩效率;第二阶段,所述统计编码器由预测器和算术编码器构成,预测器对于非重复序列,采用在传统的连续型上下文模型的基础上引入非连续比特上下文组合式的建模方案,并利用基于最大熵原则产生的Logistic回归公式合并各个模型单独产生的预测概率,从而得到最终更准确的预测概率值送入算术编码器。该方法能显著提高压缩效率,实现高效存储。 | ||
搜索关键词: | 基于 连续 上下文 建模 最大 原则 基因 压缩 方法 | ||
【主权项】:
一种基于非连续上下文建模和最大熵原则的基因压缩方法,其特征是,该方法包括两大阶段:在第一阶段,对于无参考序列的压缩,通过在已压缩序列内向前搜索的方法找到基因序列内部近距离和远距离的重复,包括直接重复和互补回文,以重复发生的属性、位置和长度高效表示基因序列的重复子序列;对于有参考序列的压缩,通过在参考序列内向前向后双向搜索的方法找到目标序列与参考序列中的重复部分,并通过重复发生的位置和长度高效表示重复子序列达到压缩目的;上述两种情况下剩余的非重复序列均将送入第二阶段的以比特位为单位的统计编码器;第二阶段,所述统计编码器由预测器和算术编码器构成,预测器对于非重复序列,采用在传统的连续型上下文模型的基础上引入非连续比特上下文组合式的建模方案,并利用基于最大熵原则产生的Logistic回归公式合并各个模型单独产生的预测概率,从而得到最终更准确的预测概率值送入算术编码器,输出码流。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310433453.9/,转载请声明来源钻瓜专利网。