[发明专利]一种基于Spark SQL的mRNA序列的查询方法和装置在审
申请号: | 201911222987.0 | 申请日: | 2019-12-03 |
公开(公告)号: | CN112908419A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 吕宁 | 申请(专利权)人: | 西安邮电大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B50/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710100 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark sql mrna 序列 查询 方法 装置 | ||
本发明的实施方式提供了一种基于Spark SQL的mRNA序列的查询方法。该方法包括:使用指定的Spark SQL语句查询RefGene数据库,并返回唯一标识基因的ID;根据返回的基因ID,查询mRNA序列,并返回查询结果。此外,本发明的实施方式提供了一种基于Spark SQL的mRNA序列的查询装置。
技术领域
本发明涉及基因检测技术领域,特别是指一种基于Spark SQL的mRNA序列的查询方法和装置。
背景技术
基因测序是指通过测序仪器对血液、体液或细胞的分析,测取组成脱氧核糖核酸(即DNA)的碱基序列。mRNA(信使RNA)序列是由DNA的一条链作为模板转录而来的、携带遗传信息的能指导蛋白质合成的一类单链核糖核酸。
随着成本的迅速下降,基因测序逐渐走向临床应用,测序数据呈现爆发式的增长,需要进行变异分析的数据也急剧增多。但是,现有的基于RefGene等数据库的基因数据分析,受限于这两个数据库的区间查询的算法效率,导致mRNA序列的查询效率很低。
发明内容
有鉴于此,本发明的目的在于提出一种基于Spark SQL的mRNA序列的查询方法和装置,能够高效准确的进行变异分析。
基于上述目的,本发明提供的一种基于Spark SQL的mRNA序列的查询方法,包括:
使用指定的Spark SQL语句查询RefGene数据库,并返回唯一标识基因的ID。指定的Spark SQL语句是指,使用查询语句select*from s rgjoin r on goverlap((s.txStart,s.txEnd,s.exonCount,s.exonStarts,s.exonEnds,s.chr,s.strand),(r.start,r.end,r.chr))。在本查询语句中,s表示表形式RefGene数据库,r表示表形式的待注释变异。使用二元组作为on的条件,二元组中各个参数表示如下:s.txStart表示表s中变异的起点字段,s.txEnd表示表s中变异的终点字段,s.exonCount表示表s中外显子个数字段,s.exonStarts表示表s中每一个外显子起点的集合,s.exonEnds表示表s中每一个外显子终点的集合,s.chr表示表s中染色体号字段,s.strand表示表s中基因的方向(即正链和负链)字段;r.start表示表r中变异的起点字段,r.end表示表r中变异的终点字段,r.chr表示表r中染色体号字段。
根据返回的基因ID,查询mRNA序列,并返回查询结果。mRNA序列的查询,使用SparkSQL的标准查询语句。
本发明实施例还提供一种基于Spark SQL的mRNA序列的查询装置,所述注释装置包括:中央处理器,其可以根据存储在存储器中的数据和程序而执行各种适当的动作和处理。通过总线,中央处理器、存储器、输入输出部分、外部存储部分和网络部分之间实现了相互连接。
附图说明
图1流程图
图2装置示意图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
参考图1,为本发明实施例的流程图。
所述基因分析注释方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911222987.0/2.html,转载请声明来源钻瓜专利网。