[发明专利]一种基于共享数据梗概的DNA序列查询系统有效
申请号: | 201911110726.X | 申请日: | 2019-11-14 |
公开(公告)号: | CN110867214B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 王平辉;李润东;狄佳;孙飞扬;樊子恩 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B50/50 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 共享 数据 梗概 dna 序列 查询 系统 | ||
本发明提供一种基于共享数据梗概的DNA序列查询系统,该系统将来自不同档案库的DNA序列压缩到同一个数据梗概中。对于感兴趣的DNA序列,通过该数据梗概可快速查询该序列存在于哪些档案库中。本发明包括数据预处理,数据梗概的建立与更新,DNA序列查询三个子系统;从给定的DNA序列中提取出有用信息;提出原创的数据梗概对多个档案库的DNA序列数据进行压缩;利用数据梗概对DNA进行查询;本发明可用于DNA序列查询,通过查询感兴趣的DNA所在的档案库,进一步寻找感兴趣的档案库数据进行研究。
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于共享数据梗概的DNA序列查询系统。
背景技术
微生物基因组的全基因组鸟枪测序已经成为比较基因组研究的重要组成部分,并已在食源性疾病爆发追踪、绘制耐药性分布、传染病诊断等诸多领域中有着广泛的应用。这些DNA序列数据存储在各种档案库中,例如欧洲核苷酸档案库等。相同的DNA序列可能同时存储在多个档案库中。研究人员关注其感兴趣的DNA序列,并通过查找这些DNA序列所在的档案库,进一步获取其感兴趣的档案库,从而开展后续的研究工作。因此,快速判断感兴趣的DNA序列存在于哪些档案库中是一个很重要的问题。
通常来说,判断一段DNA序列是否存储在某个档案库中,需要将该DNA序列与档案库中的DNA序列一一比对。由于相同的DNA序列可能存在于多个档案库中,需要将感兴趣的DNA序列在所有候选档案库中进行遍历查找。然而,随着DNA测序逐渐标准化,基因组序列数据的规模以两年一倍的速度不断扩大;与此同时,档案库的数量也在不断增加。因此,在如此庞大的档案库中进行一一比对的计算代价十分高昂,甚至不可承受。
当前主流的解决方案对每一个档案库建立一个数据梗概,并将档案库的DNA序列信息压缩存在到数据梗概中。对感兴趣的DNA序列,通过档案库的数据梗概就能快速判断其是否存在于该档案库中。然而,这样的方法有很多的问题。首先,对每个档案库都建立一个数据梗概。当有新的档案库产生时,会对应建立新的数据梗概。由于档案库的数量十分庞大,因此建立众多的数据梗概对存储空间消耗很大。其次,对于每个档案库,其数据梗概的大小是相同的。但是在研究中发现,不同档案库包含的DNA序列数据的规模也不同。有的档案库可能包含大量的DNA序列,有的档案库可能仅仅包含少量的DNA序列。对数据量大的档案库,为保证压缩存储的有效性,其数据梗概占用的存储空间往往也很大。对数据量小的档案库,为保证查询效率,会使用相同大小的数据梗概。这会使得小档案库的数据梗概空间利用率不高,造成严重的空间浪费。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于共享数据梗概的DNA序列查询系统,一方面,能够在数量众多的档案库中准确查找感兴趣DNA序列位于哪些档案库中。另一方面,不同的档案库共享同一数据梗概,有效地减少了数据梗概所需要的存储空间,提高了数据梗概的空间利用率。第三方面,对新增加的档案库仍然共享同一数据梗概而不必建立新的数据梗概,进一步提高了空间利用率。
为了实现上述目的,本发明采用的技术方案是:
一种基于共享数据梗概的DNA序列查询系统,其特征在于,包括:
数据预处理子系统,实现输入数据的预处理,将原始DNA数据进行解析,处理成容易进行后续操作的二元组;
具体地,数据预处理子系统对原始DNA数据进行处理,从中提取出DNA序列及其所属档案库信息。即二元组e=(x,y),第一项为DNA序列信息,第二项为该DNA序列所属的档案库。即二元组e=(x,y)的含义为来自档案库y的DNA序列x,x表示为字符串格式,y为区间[0,n]内的正整数,即y={1,…,n},n为档案库的数量。
数据梗概建立与更新子系统,将来自不同档案库的二元组压缩存储到数据梗概中,实现对不同档案库的共享压缩存储,以便后续查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911110726.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置