[发明专利]DNA存储的软判决信息译码方法及编码方法在审
申请号: | 202211116662.6 | 申请日: | 2022-09-14 |
公开(公告)号: | CN115470035A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 阮珏;丁璐璐;伍世刚 | 申请(专利权)人: | 中国农业科学院深圳农业基因组研究所 |
主分类号: | G06F11/10 | 分类号: | G06F11/10;G06K9/62;G06N3/12;G11C29/42;H03M13/09 |
代理公司: | 北京北汇律师事务所 11711 | 代理人: | 李英杰 |
地址: | 518120 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | dna 存储 判决 信息 译码 方法 编码 | ||
本公开实施例公开了一种DNA存储的软判决信息译码方法及编码方法。其中,DNA存储的软判决信息译码方法,包括:对获取的测序数据中的测序序列进行聚类;对每个聚类求得一个一致性序列,得到多个一致性序列,将一致性序列中每个碱基记录的多序列比对的支持度作为一致性序列上每个碱基的质量值;将多个一致性序列按照序列索引排列,得到解码矩阵块;对所述解码矩阵块进行译码。通过对测序序列求一致性序列,去掉了大部分随机错误,再利用多序列比对的支持度对剩余错误进行预测和排序,充分挖掘测序信息提高了预测准确度,降低了预测的计算复杂度,实现的软判决译码使得纠错能力大大提升,保障DNA存储能够应用在更大的数据规模同时具有更强的保真性。
技术领域
本公开涉及DNA信息存储领域,尤其涉及一种DNA存储的软判决信息译码方法及编码方法。
背景技术
21世纪互联网时代信息爆炸式增长,预计2025年全球数据规模将达到175ZB,现有的硅基集成电路的存储设备已不能满足需求。DNA信息存储由于高存储密度、高稳定性,在大数据存储上具有显著的优势。
DNA信息存储主要包括写入和读取两个过程,写入时,将信息编码为DNA序列,合成DNA,保存起来;需要读取信息的时候,测序,解码DNA序列到原始信息。在合成、存储和测序过程中会引入碱基突变、碱基插入缺失、序列丢失和降解等错误,带来数据读取的难题。
纠错方法分为两种:物理冗余和逻辑冗余。最早的研究Church和Goldman通过将信息复制多份的方法来纠错恢复信息。2015年,Grass将纠错码的技术引入DNA存储,通过添加逻辑冗余的方法保证DNA信息存储的准确完整。应用在DNA信息存储中,常用的纠错码技术包括:RS码、BCH码、喷泉码和卷积码等,其中RS码编码方式简单、编码效率高、译码速度快,是使用最广泛的纠错技术。
在通讯技术领域,纠错码的译码方法分为硬判决和软判决两类。通常,译码器利用有关信道差错统计特性的信息作为软判决信息,进行软译码时比硬译码能实现更强的纠错能力。但是,由于软判决过程要产生大量的试探序列,计算量高过程复杂,因此软译码算法比硬译码算法要复杂的多。应用在DNA信息存储领域的译码方法目前大多都是采用的硬判决,当使用软判决时,例如Weigang Chen等运用分组码的软判决译码,结合水印码,构建的HMM模型只是基于错误发生的概率预测碱基偏移量,并没有针对具体的错误模式的详细可靠的错误模型;Shubham Chandak等使用卷积码的维特比软判决译码,软判决信息来自于Nanopore测序的原始电信号转化为碱基的预测过程,但电信号预测碱基准确率就比较低(90%左右),而且维特比译码给出的是最大可能的译码结果,不一定能把错误全部纠正,还需要结合其他纠错方法,Shubham Chandak等也使用了CRC和RS纠错码,同时由于卷积码的前后码段之间存在约束关系,在错误率较高的信道下,前面码段的错误会在后面码段中积累传播。Shubham Chandak等也并没有实现100%数据恢复。因此现有技术的软判决方法都比较复杂,计算量大,而且都没有展示出基于DNA存储信道构造的可靠的软判决信息模型。
而且,在传统的通信领域,信息采用0-1编码,但在DNA存储领域,常用的是四进制编码(A/T/C/G),信息出错的类型更难判断,预测的复杂度也更高。
发明内容
有鉴于此,本公开实施例提供了一种DNA存储的软判决信息译码方法及编码方法,至少部分的解决现有技术中存在的硬判决纠错能力差,软判决模型不准、预测复杂度高的问题。
第一方面,本公开实施例提供了一种DNA存储的软判决信息译码方法,包括:
对获取的测序数据中的测序序列进行聚类;
对每个聚类求得一个一致性序列,得到多个一致性序列,将一致性序列中每个碱基记录的多序列比对的支持度作为一致性序列上每个碱基的质量值;
将多个一致性序列按照序列索引排列,得到解码矩阵块;
对所述解码矩阵块进行译码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业科学院深圳农业基因组研究所,未经中国农业科学院深圳农业基因组研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211116662.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置