[发明专利]信息处理装置、数据存取方法以及程序在审

专利信息
申请号: 201280052433.0 申请日: 2012-08-24
公开(公告)号: CN103890763A 公开(公告)日: 2014-06-25
发明(设计)人: 小柳光生;R.H.P.鲁迪;海野裕也;今道贵司 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/30 分类号: G06F17/30;G06F12/00;G06F17/28
代理公司: 北京市柳沈律师事务所 11105 代理人: 金景花
地址: 美国纽*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息处理 装置 数据 存取 方法 以及 程序
【说明书】:

技术领域

本发明涉及数据存储器(data store),更详细而言,涉及实现高效率地存储密钥(key)的数据存储器的信息处理装置、对于该数据存储器的数据存取方法以及程序。

背景技术

在语言处理、用户管理等的应用开发的领域中,对于将单词、句子、人名、URL等的庞大的字符串空间效率高地存储在存储器中的技术的期望提高。这是因为,通过实现将字符串等作为密钥的效率高的数据存储器,能够将多个字符串以节省存储器的方式进行管理,进而,能够高效率地实现上述应用。

作为在上述用途中使用的数据存储器,已知散列图(Hash Map/Hash Table)。散列图是使用散列函数而将密钥映射到值的数据结构,能够以密钥来注册值,以密钥进行查询而取得值。由于散列图根据从密钥概括的散列值来管理“值”,所以容易追加,并且,无论元素数如何都能够进行恒定时间中的检索以及追加,能够进行高速的数据存取。但是,散列图为了降低冲突而使用充分稀疏的表,难以提高存储器空间效率。

作为在上述的用途中使用的其他的数据存储器,已知在双阵列(Double-Array)中安装的字典树(TRIE)。在双阵列中安装的字典树(以下,有时简称为双阵列)是将存储密钥的字典树以链接结构维持的数据结构。已知与上述散列图相比,双阵列在数据存取速度的观点上是逊色的,但能够将存储器空间效率设得比较高。

作为在上述的用途中使用的其他的数据存储器,进而,已知在LOUDS(Level Order Unary Degree Structure,一级阶一元等级结构)中安装的字典树。LOUDS是表现树结构的简洁数据结构(非专利文献1)。也报告了如下例子:通过在存储单词等的字符串的字典树的表现中使用LOUDS,与双阵列中的安装相比,在存取速度上花费数倍的成本,但实现了4~10倍的存储器空间效率(非专利文献2)。另一方面,由于LOUDS是在存储器空间中紧密地配置的数据结构,所以为了对一旦完成的LOUDS追加新的字符串,为了在要追加新的字符串的节点(node)的部位制作缝隙(表现节点的1比特)而需要移动平均一半的数据。因此,在构筑完毕的数据结构中追加新的字符串会产生大的处理成本。

此外,已知在处理庞大的量的流数据的用途中,优先保持高频度地出现的密钥的战略。例如,非专利文献3公开了如下技术:通过误差允许计数法(Lossy Counting Method),对作为流数据而输入的项目的频度进行计数,取得出现频度上位的项目的集合。除此之外,作为误差允许计数法的改良型,已知在非专利文献4中公开的概率性误差允许计数法(Probabilistic Lossy Counting Method)和在非专利文献5中公开的助记符误差允许计数法(Mnemonic Lossy Counting Method)。

现有技术文献

非专利文献

非专利文献1:G.Jacobson、“Space-efficient Static Trees and Graphs”、In Proceedings of the30th Annual Symposium on Foundations of Computer Science(SFCS'89)、IEEE Computer Society、USA、1989、549-554

非专利文献2:冈野原大辅、“大規模キー集合の効率的な格納法tx bep(大规模密钥集合的高效率的存储法tx bep)”、[online]、东京大学、[平成23年9月15日检索]、互联网<URL:http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/papers/2007-1031-massiveKeys.pdf>

非专利文献3:G.S.Manku,et al.、“Approximate Frequency Counts over Data Streams”、Proceedings of the28th International Conference on Very Large Data Base(VLDB)、2002

非专利文献4:X.Dimitropoulos,et al.、“Probabilistic Lossy Counting:An efficient Algorithm for Finding Heavy Hitters”、ACM SIGCOMM Computer Communication Review、Volume38、Issue1、January2008

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201280052433.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top