[发明专利]字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统有效

专利信息
申请号: 201680088917.9 申请日: 2016-09-02
公开(公告)号: CN109643322B 公开(公告)日: 2022-11-29
发明(设计)人: 木村宏一 申请(专利权)人: 株式会社日立高新技术
主分类号: G06F16/9032 分类号: G06F16/9032;G06F40/20
代理公司: 永新专利商标代理有限公司 72002 代理人: 高迪
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 字符串 辞典 构建 方法 检索 处理 系统
【说明书】:

字符串数据解析装置(1)的多核CPU(101),关于将划分字符串辞典(112)而得到的多个块在存储器(102)上展开、将字符串数据(111)的未登记字符串从末尾字符起逐个字符地向各块作为新的条目登记的条目登记处理,针对能够相互独立地执行的块的组并行地执行,在没有了各块的未登记字符串的状态下,将各块的条目中所登记的字符串连结而成的字符串作为字符串数据(111)已登记的字符串辞典(112)的BW变换数据输出。

技术领域

本发明涉及字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统。

背景技术

随着DNA(DeoxyriboNucleic Acid,脱氧核糖核酸)测序(sequencing)技术的进步,DNA测序器输出的DNA排列数据的量正在迅速地增大。因此,在调查大量得到的DNA排列数据之中是否不包含有害的变异排列的变异解析等数据解析中,需要的计算开销也不断增大。

为了使数据解析有效率化,将以被计测的顺序输出的DNA排列数据(字符串数据)以字母(拉丁字母)顺序(辞典式顺序)排序是有效的。这是因为对于排序后的数据能够进行高速的检索。特别是,作为适合于DNA排列数据的方法,已知有采用BW(Burrows-Wheeler、伯罗斯-惠勒)变换(或FM索引)的方法(非专利文献1)。

将DNA排列数据进行BW变换后的数据被表现为以DNA和分隔字符($)为要素的1条排列,其各要素与将处于原来的DNA排列数据内的全部排列的全部后缀以字母顺序排序而列举的列表的各要素一对一地对应。进而,已知有能够利用BW变换的结果作为将全部的后缀以字母顺序排序的辞典利用的有效率的方法(非专利文献1)。因此,将BW变换结果也称作字符串辞典。

由于DNA排列数据的尺寸较大,所以在字符串辞典的构建中也花费较大的计算开销。已知有高速地构建字符串辞典的方法(专利文献1、非专利文献2、非专利文献3)。为了更高速化,还使用将字符串辞典的构建按照碱基的种类(字母字符)A、C、G、T并行化的方法(非专利文献4)。结果,能得到与碱基的种类数(字母尺寸)大致相等的并行度,能得到约4倍的高速化率,但不能得到其以上的并行度。

现有技术文献

专利文献

专利文献1:美国专利第8798936号说明书

非专利文献

非专利文献1:Ferragina P,Manzini G.Proceedings of the 41st Symposiumon Foundations of Computer Science(FOCS 2000).Los Alamitos,CA,USA:IEEEComputer Society;2000.Opportunistic data structures with applications;p.390-398.

非专利文献2:Lippert,Ross A.,Clark M.Mobarry,and Brian P.Walenz.Aspace-efficient construction of the Burrows-Wheeler transform for genomicdata.Journal of Computational Biology 12.7(2005):943-951.

非专利文献3:Ferragina P,Gagie T,Manzini G.“Lightweight Data Indexingand Compression in External Memory.”LATIN 2010:Theoretical Informatics.Volume6034of the series Lecture Notes in Computer Science,Springer,pp 697-710.

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立高新技术,未经株式会社日立高新技术许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201680088917.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top