[发明专利]信息处理装置、数据存取方法以及程序在审
申请号: | 201280052433.0 | 申请日: | 2012-08-24 |
公开(公告)号: | CN103890763A | 公开(公告)日: | 2014-06-25 |
发明(设计)人: | 小柳光生;R.H.P.鲁迪;海野裕也;今道贵司 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F12/00;G06F17/28 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金景花 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 装置 数据 存取 方法 以及 程序 | ||
技术领域
本发明涉及数据存储器(data store),更详细而言,涉及实现高效率地存储密钥(key)的数据存储器的信息处理装置、对于该数据存储器的数据存取方法以及程序。
背景技术
在语言处理、用户管理等的应用开发的领域中,对于将单词、句子、人名、URL等的庞大的字符串空间效率高地存储在存储器中的技术的期望提高。这是因为,通过实现将字符串等作为密钥的效率高的数据存储器,能够将多个字符串以节省存储器的方式进行管理,进而,能够高效率地实现上述应用。
作为在上述用途中使用的数据存储器,已知散列图(Hash Map/Hash Table)。散列图是使用散列函数而将密钥映射到值的数据结构,能够以密钥来注册值,以密钥进行查询而取得值。由于散列图根据从密钥概括的散列值来管理“值”,所以容易追加,并且,无论元素数如何都能够进行恒定时间中的检索以及追加,能够进行高速的数据存取。但是,散列图为了降低冲突而使用充分稀疏的表,难以提高存储器空间效率。
作为在上述的用途中使用的其他的数据存储器,已知在双阵列(Double-Array)中安装的字典树(TRIE)。在双阵列中安装的字典树(以下,有时简称为双阵列)是将存储密钥的字典树以链接结构维持的数据结构。已知与上述散列图相比,双阵列在数据存取速度的观点上是逊色的,但能够将存储器空间效率设得比较高。
作为在上述的用途中使用的其他的数据存储器,进而,已知在LOUDS(Level Order Unary Degree Structure,一级阶一元等级结构)中安装的字典树。LOUDS是表现树结构的简洁数据结构(非专利文献1)。也报告了如下例子:通过在存储单词等的字符串的字典树的表现中使用LOUDS,与双阵列中的安装相比,在存取速度上花费数倍的成本,但实现了4~10倍的存储器空间效率(非专利文献2)。另一方面,由于LOUDS是在存储器空间中紧密地配置的数据结构,所以为了对一旦完成的LOUDS追加新的字符串,为了在要追加新的字符串的节点(node)的部位制作缝隙(表现节点的1比特)而需要移动平均一半的数据。因此,在构筑完毕的数据结构中追加新的字符串会产生大的处理成本。
此外,已知在处理庞大的量的流数据的用途中,优先保持高频度地出现的密钥的战略。例如,非专利文献3公开了如下技术:通过误差允许计数法(Lossy Counting Method),对作为流数据而输入的项目的频度进行计数,取得出现频度上位的项目的集合。除此之外,作为误差允许计数法的改良型,已知在非专利文献4中公开的概率性误差允许计数法(Probabilistic Lossy Counting Method)和在非专利文献5中公开的助记符误差允许计数法(Mnemonic Lossy Counting Method)。
现有技术文献
非专利文献
非专利文献1:G.Jacobson、“Space-efficient Static Trees and Graphs”、In Proceedings of the30th Annual Symposium on Foundations of Computer Science(SFCS'89)、IEEE Computer Society、USA、1989、549-554
非专利文献2:冈野原大辅、“大規模キー集合の効率的な格納法tx bep(大规模密钥集合的高效率的存储法tx bep)”、[online]、东京大学、[平成23年9月15日检索]、互联网<URL:http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/papers/2007-1031-massiveKeys.pdf>
非专利文献3:G.S.Manku,et al.、“Approximate Frequency Counts over Data Streams”、Proceedings of the28th International Conference on Very Large Data Base(VLDB)、2002
非专利文献4:X.Dimitropoulos,et al.、“Probabilistic Lossy Counting:An efficient Algorithm for Finding Heavy Hitters”、ACM SIGCOMM Computer Communication Review、Volume38、Issue1、January2008
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280052433.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种杀菌橡胶地板
- 下一篇:促成对等覆盖网络中的访问控制的方法和系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置