[发明专利]一种基因测序数据重组封装的方法和装置有效
申请号: | 202110810347.2 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113268461B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 郭祥学;张巍 | 申请(专利权)人: | 广州嘉检医学检测有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G16B30/00;G16B50/50 |
代理公司: | 广州君策达知识产权代理事务所(普通合伙) 44749 | 代理人: | 陈宏升 |
地址: | 510000 广东省广州市黄埔区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序数 重组 封装 方法 装置 | ||
本发明公开了一种基因测序数据重组封装的方法,包括如下步骤,步骤1:构建参考基因组数据库和基因字典;步骤2:获取样品中染色体的第二基因序列;步骤3:将步骤2的第二基因序列和多条第一基因序列进行比对;步骤4:将第二基因序列和标准基因进行比对;步骤5:将基因片段中的核苷酸以N个为一组依次进行分组;步骤6:将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;步骤7:将不同染色体上的核苷酸数据进行统计并压缩即可得到压缩后的基因组数据;步骤8:还原得到样品的第二基因序列。本发明将一小段核苷酸采用字典代码化,能够实现数据的有效压缩;同时,本发明还提供基于该方法的装置。
技术领域
本发明涉及新一代信息技术的电数字数据处理领域,具体为一种基因测序数据重组封装的方法和装置。
背景技术
CN202010457824.7公开了深度测序第二基因序列数据文件的无损压缩方法,该专利申请的技术方案以传输过程中不需要传输的内置标准参考基因组和内置字典文件作为对比。因此如果传输或者存储过程中丢失转换后的第二基因序列或者本专利压缩后的第二基因序列数据的话,只要其他人员无法取得内置标准基因和内置字典文件,就无法还原相关的序列,大大加强了安全性。未匹配上的变异,增设临时字典,该字典随着文件压缩和传输。如果第一次未匹配到的特殊变异写入该字典后,后面几百甚至上万次测序数据中出现的该特殊变异就不用另外存储,大大节省了空间。
该方法采用字典文件来减少核苷酸序列的数据,来实现压缩传递核苷酸数据的目的,但是,是否存在进一步降低数据传输量的有效路径,则没有进一步的研究或者说明,而这恰恰是本领域所迫切需要被满足的。
发明内容
本发明的目的在于提供一种基因测序数据重组封装的方法,该方法将一小段核苷酸采用字典代码化,能够实现数据的有效压缩;
同时,本发明还提供基于该方法的装置。
为实现上述目的,本发明提供如下技术方案:一种基因测序数据重组封装的方法,包括如下步骤:
步骤1:构建参考基因组数据库和基因字典,所述参考基因组数据库中存储有多条染色体的第一基因序列,所述基因字典中用代号表示小于以及等于N个核苷酸序列的不同组合;
步骤2:获取样品中染色体的第二基因序列;
步骤3:将步骤2的第二基因序列和多条第一基因序列进行比对,找到和第二基因序列相似度最高的第一基因序列作为标准基因;
步骤4:将第二基因序列和标准基因进行比对,分离出第二基因序列中和标准基因不同的基因片段以及基因片段前后各N个核苷酸;基因片段的前端的N个核苷酸定义为前段,基因片段的后端的N个核苷酸定义为后段;
步骤5:将基因片段中的核苷酸以N个为一组依次进行分组;
步骤6:将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;
步骤7:将不同染色体上的核苷酸数据进行统计并压缩即得到压缩后的基因组数据,将基因组数据以及标准基因对应的第一基因序列的编号发送给数据接收端;
步骤8:当数据接收端接收到基因组数据、第一基因序列的编号后,将基因组数据进行解压缩,参考基因字典提取出每个染色体上的核苷酸数据,通过前段、后段的核苷酸序列以及前段后段之间的核苷酸的数量来确定基因片段在标准基因上的位置,还原得到样品的第二基因序列。
在上述的基因测序数据重组封装的方法中,所述N为3或4或5或6。
在上述的基因测序数据重组封装的方法中,所述基因片段的长度大于N个核苷酸。
在上述的基因测序数据重组封装的方法中,所述参考基因组数据库中,所述第一基因序列包括常染色体的第一基因序列和性染色体的第一基因序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州嘉检医学检测有限公司,未经广州嘉检医学检测有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110810347.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多波段的平场校正方法、装置及计算机可读介质
- 下一篇:数据压缩方法及装置