[发明专利]基因测序质量行数据压缩预处理、解压还原方法及系统有效
申请号: | 201810392727.7 | 申请日: | 2018-04-27 |
公开(公告)号: | CN110428868B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 赵强利;宋卓;李根;蒋艳凰;冯博伦;唐宏伟;徐霞丽;毛海波 | 申请(专利权)人: | 人和未来生物科技(长沙)有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B50/00;H03M7/30 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410000 湖南省长沙市高新*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基因测序质量行数据压缩预处理、解压还原方法及系统,本发明基因测序质量行数据压缩预处理、解压还原的基本原理是从输入的质量行文件或数据块中取出若干列作为索引列,然后对所有的质量行数据重新排列,所有索引列相同的质量行为一组,并按它们在原数据块中的相对位置排列在一起。由于索引列相同的质量行数据往往更为相似,这种数据重组的方式能够将相似的基因测序数据排列在一起,从而提高了数据的局部相似性。本发明不引入额外的存储开销,仅仅通过很小的计算开销实现大的数据窗口内的数据重排列,从而提高压缩效率,本发明适合对基因测序过程中的质量行数据进行压缩预处理,而且数据块越大,优势越明显。 | ||
搜索关键词: | 基因 质量 行数 压缩 预处理 解压 还原 方法 系统 | ||
【主权项】:
1.一种基因测序质量行数据压缩预处理方法,其特征在于实施步骤包括:1)读取质量行数据的原始数据块Data并确定其索引列的列号Index_No;2)根据原始数据块Data的索引列建立分组信息表IIT;3)根据分组信息表IIT,将原始数据块Data中各个质量行按照索引列信息重新分组排列、并删除索引列部分的数据,得到分组重排后的数据Grouped_Data;4)提取原始数据块Data的索引列的数据Index_Data,将索引列的列号Index_No、原始数据块Data的索引列的数据Index_Data以及分组重排后的数据Grouped_Data作为压缩预处理结果输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人和未来生物科技(长沙)有限公司,未经人和未来生物科技(长沙)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810392727.7/,转载请声明来源钻瓜专利网。