[发明专利]一种大规模字符串文本的后缀索引构造方法及装置有效
申请号: | 201510659972.6 | 申请日: | 2015-10-14 |
公开(公告)号: | CN105335481B | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 刘伟军;农革 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 528300 广东省佛山市顺德区大良*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 字符串 文本 后缀 索引 构造 方法 装置 | ||
本发明公开了一种大规模文本的后缀索引构造方法及装置,本发明在后缀索引构造过程中至少配置大规模字符串读取器,后缀前驱信息处理器,LMS后缀识别器,两个外存优先级队列容器和外存排序器。通过大规模字符串读取器读取字符串,LMS识别器识别字符串中的LMS子串或后缀,外存优先级队列容器实现子串或后缀的排序,最终完成大规模字符串文本的后缀索引构造。在索引构造过程中,利用了低成本的计算机外存资源,使得后缀索引构造不再受限于内存容量;从而在任意一台普通计算机环境下,本发明能完成超过该内存大小的字符串文本数据的后缀索引构造,突破现有后缀索引构造技术方案的局限性。且本发明具有运行速度快、I/O量小和简单易行等优点。
技术领域
本发明涉及后缀索引构造技术领域,尤其涉及一种利用计算机外存来构造大规模字符串文本后缀索引的方法及装置。
背景技术
后缀索引,也称为后缀数组(suffix array),是计算机科学中的一个重要数据结构,具有结构紧凑且空间占用小的特点,在全文检索、数据压缩、基因序列对齐和模式匹配等诸多领域具有广泛应用。任意给定一个字符串文本,简称为字符串,从字符串中的任意位置开始到该字符串结尾的所有字符组成一个字符子串,该子串称为字符串的后缀(suffix)。显然,长度为n的字符串包含n个后缀,对这n个后缀按字典顺序升序保存在一个整型数组中,该数组则称为字符串的后缀索引。
传统构造后缀索引技术需要把所有文本全部加载至内存,然后才能进行后缀索引构造。但近年来,基因数据库、互联网文本数据以及其它相关领域的文本数据规模不断扩大,普通计算机内存已无法一次性加载全部文本,这些传统索引构造技术显然已不再适用。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),首先提供一种大规模字符串文本的后缀索引构造方法,使用户在普通计算机环境下(如:内存大小为4G)也能进行大规模字符串文本的后缀索引构造。
本发明的又一目的是提出一种大规模字符串文本的后缀索引构造装置,其实现了借助计算机外存对大规模字符串文本进行后缀索引构造。
为了实现上述目的,本发明采用如下技术方案:
一种大规模文本的后缀索引构造方法,所述方法包括:
收缩字符串T,得到新的字符串T1,T1的规模最多为T的一半;
以直接方式或递归方式构造T1的后缀索引;
扫描T1的后缀索引,得到T的后缀索引。
其中,所述收缩字符串T,得到新的字符串T1的具体过程为:
使用大规模字符串读取器分批读取字符串T,获取T中所有LMS子串,压入外存优先级队列容器Q1中。扫描Q1排序L子串,并使用子串命名单元对L子串和LMS子串进行命名,得到的有序L子串存放于外存优先级队列容器Q2中。扫描Q2中所有L子串排序S子串,并对S子串命名,得到有序S子串。提取S子串中所有LMS子串的名字,这些名字按照LMS子串在原字符串中的索引位置升序构成新的字符串T1;
所述LMS子串的识别方法为,该子串的首字符和尾字符均为LMS字符,首字符与尾字符之间不存在任何LMS字符;
所述LMS字符的识别方法为,当后缀为LMS后缀时,则该后缀所对应字符子串的首字符称为LMS字符;
所述LMS后缀的识别方法为,若当前后缀为S后缀,且字符串T中与当前后缀相邻的左手边第一个后缀为L后缀,则该后缀为LMS后缀;
所述L子串的识别方法为,子串的首字符为L字符,尾字符为LMS字符,且首字符与尾字符之间不存在任何LMS字符,则该子串为L子串;
所述L或S字符的识别方法为,若某后缀为L或S后缀,则该后缀所对应字符子串的首字符分别称为L或S字符;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510659972.6/2.html,转载请声明来源钻瓜专利网。