[发明专利]一种基于DNAk‑merindex问题四字链表字典树检索算法在审
申请号: | 201610884413.X | 申请日: | 2016-10-10 |
公开(公告)号: | CN106484865A | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 王辉;张旭;魏智红;童丽峰;张一;毕文鹏;贲浩然;车超 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及数据结构和大数据处理领域,尤其涉及一种基于字典树的新型快速搜索算法。本发明首先建立四字字典树模型,以DNA序列的4个碱基作为系统输入;建立字典树终端检索链表,确立终端结束标志,最后不再区分碱基序列并建立查询时反向推算序列号与碱基对号模型;DNA序列索引建立的步骤及其复杂度分析;获取子串位置后在叶子节点处加挂检索链表,存入位置数据;k‑mer短串查询步骤及其复杂度分析;当单词的公共前缀越长时,字典树查询的越快;其复杂度随着k不同而有变化,但基本为一常量,几乎不受到数据量的影响。本发明原始数据采用字母映射,使字典树的子节点个数由26个压缩至4个,节省结点空间。 | ||
搜索关键词: | 一种 基于 dnak merindex 问题 四字链 表字 检索 算法 | ||
【主权项】:
一种基于DNA k‑mer index问题四字链表字典树检索算法,其特征在于,包括如下步骤:(1)首先建立四字字典树模型,以DNA序列的4个碱基作为系统输入;(2)建立字典树终端检索链表,确立终端结束标志,最后不再区分碱基序列并建立查询时反向推算序列号与碱基对号模型;(3)DNA序列索引建立的步骤及其复杂度分析;获取子串位置后在叶子节点处加挂检索链表,存入位置数据;(4)k‑mer短串查询步骤及其复杂度分析;当单词的公共前缀越长时,字典树查询的越快;其复杂度随着k不同而有变化,但基本为一常量,几乎不受到数据量的影响。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610884413.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于wap技术的企业信息管理平台
- 下一篇:一种批量数据处理方法及装置