[发明专利]字符串辞典的构建方法、字符串辞典的检索方法及字符串辞典的处理系统有效

申请号：	201680088917.9	申请日：	2016-09-02
公开（公告）号：	CN109643322B	公开（公告）日：	2022-11-29
发明（设计）人：	木村宏一	申请（专利权）人：	株式会社日立高新技术
主分类号：	G06F16/9032	分类号：	G06F16/9032;G06F40/20
代理公司：	永新专利商标代理有限公司 72002	代理人：	高迪
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字符串辞典构建方法检索处理系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种字符串辞典的构建方法，其特征在于，

由字符串数据解析装置执行，该字符串数据解析装置具备：由多个CPU核心构成的多核CPU；以及存储器；

上述字符串辞典的构建方法，关于上述存储器上所展开的、划分字符串辞典而得到的多个块，对于各块分别赋予不同的标签，标签由构成字符串数据的字母与分隔字符以1字符以上而构成；

上述多核CPU，

关于被输入的各个上述字符串数据，对于被赋予了分隔字符的标签的块，将上述字符串数据的末尾字符作为块的条目进行登记，将上述字符串数据的剩余的字符串作为未登记字符串而针对该末尾字符建立对应；

关于条目登记处理，对于能够相互独立地执行的块的组并行地执行，上述条目登记处理将上述未登记字符串与各块之中的条目建立了对应的登记源块读入，对于根据上述登记源块的标签及条目所确定的登记目标块，将上述登记源块的上述未登记字符串的末尾字符作为新的条目登记于上述登记目标块中，将上述未登记字符串的剩余的字符串作为新的未登记字符串而针对该新的条目建立对应；

在没有了各块的上述未登记字符串的状态下，关于登记在各块的条目中的字符串，将以块的标签所示的字母及分隔字符的顺序连结而成的字符串作为登记了上述字符串数据的上述字符串辞典的BW变换数据即伯罗斯-惠勒变换数据而输出。

2.如权利要求1所述的字符串辞典的构建方法，其特征在于，

上述多核CPU基于构成上述多核CPU的核心数量，计算用来决定在上述存储器上所展开的块的数量的各块的标签的长度。

3.如权利要求1所述的字符串辞典的构建方法，其特征在于，

上述多核CPU，作为上述条目登记处理，将依次读入的上述登记源块的组、和同时并行地写入的上述登记目标块的组分别进行分组，在上述登记源块的组间并行地执行上述登记源块的读入处理，在上述登记源块的组内依次地执行上述登记源块的读入处理。

4.一种字符串辞典的检索方法，其特征在于，

由检索装置执行，该检索装置具有：存储机构，存储通过权利要求1～3中任一项所述的字符串辞典的构建方法所构建的上述字符串辞典；以及控制机构；

上述控制机构，

经由输入机构受理查询字符串的输入；

检索上述字符串辞典中所登记的上述字符串数据中的上述查询字符串的出现次数；

经由输出机构，将检索到的出现次数输出。

5.如权利要求4所述的字符串辞典的检索方法，其特征在于，