[发明专利]基于非连续上下文建模和最大熵原则的基因压缩方法有效

申请号：	201310433453.9	申请日：	2013-09-22
公开（公告）号：	CN103546162A	公开（公告）日：	2014-01-29
发明（设计）人：	熊红凯;李平好	申请（专利权）人：	上海交通大学
主分类号：	H03M7/40	分类号：	H03M7/40
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	郭国中
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于非连续上下文建模和最大熵原则的基因压缩方法，包括：在第一阶段，同时考虑了有参考序列和无参考序列两种实际情况，用字典方法表示基因序列内或间的重复序列，提高压缩效率；第二阶段，所述统计编码器由预测器和算术编码器构成，预测器对于非重复序列，采用在传统的连续型上下文模型的基础上引入非连续比特上下文组合式的建模方案，并利用基于最大熵原则产生的Logistic回归公式合并各个模型单独产生的预测概率，从而得到最终更准确的预测概率值送入算术编码器。该方法能显著提高压缩效率，实现高效存储。
搜索关键词：	基于连续上下文建模最大原则基因压缩方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于非连续上下文建模和最大熵原则的基因压缩方法，其特征是，该方法包括两大阶段：在第一阶段，对于无参考序列的压缩，通过在已压缩序列内向前搜索的方法找到基因序列内部近距离和远距离的重复，包括直接重复和互补回文，以重复发生的属性、位置和长度高效表示基因序列的重复子序列；对于有参考序列的压缩，通过在参考序列内向前向后双向搜索的方法找到目标序列与参考序列中的重复部分，并通过重复发生的位置和长度高效表示重复子序列达到压缩目的；上述两种情况下剩余的非重复序列均将送入第二阶段的以比特位为单位的统计编码器；第二阶段，所述统计编码器由预测器和算术编码器构成，预测器对于非重复序列，采用在传统的连续型上下文模型的基础上引入非连续比特上下文组合式的建模方案，并利用基于最大熵原则产生的Logistic回归公式合并各个模型单独产生的预测概率，从而得到最终更准确的预测概率值送入算术编码器，输出码流。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310433453.9/，转载请声明来源钻瓜专利网。

上一篇：太空诱变高效灵芝菌、其应用及其胶囊制剂的制备方法
下一篇：一种高效气提耦合发酵制备丁醇的装置和方法

同类专利

专利分类

H 电学

H03 基本电子电路
H03M 一般编码、译码或代码转换
H03M7-00 把用给定序列的数字或给定数目的数字来表示信息的码，转换到用不同序列的数字或不同数目的数字来表示相同信息的码
H03M7-02 .转换到加权代码或相反转换，即对一数字的加权与该数字在信息组或代码字中的位置有关
H03M7-14 .转换到非加权代码或相反转换
H03M7-26 .转换到随机码或相反转换
H03M7-28 .可编程序结构，即代码转换器所包括的设备其算符是可变的，以调整转换程序
H03M7-30 .压缩

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于非连续上下文建模和最大熵原则的基因压缩方法有效

专利文献下载