[发明专利]用于在文本数据流中包括的项目之中标识具有最高出现频率的项目的方法和设备有效
申请号: | 201310132171.5 | 申请日: | 2013-04-16 |
公开(公告)号: | CN103377147A | 公开(公告)日: | 2013-10-30 |
发明(设计)人: | R·H·鲁迪;小柳光生;恐神贵行 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F12/08 | 分类号: | G06F12/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;李峥宇 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 数据流 包括 项目 之中 标识 具有 最高 出现 频率 方法 设备 | ||
技术领域
本发明涉及用于有效地在文本数据流中包括的项目之中标识具有最高出现频率的项目的方法、设备和计算机程序。
背景技术
当要适当地标识连续输入的项目的文本数据流中包括的项目的出现频率时,通常需要计数和存储每个项目出现的次数。因此,所需要的存储器容量是非常巨大的。一种用于改善存储器效率的众所周知的算法是损耗计数(LC),这是一种近似计算方法,其中,存储器被划分为两个级,一个用于具有高出现频率的项目,而一个用于所有其他项目(参见非专利文献1-3)。
同时,在专利文献1-3中,公开了这样的示例,其中LC用于根据包括在数据流中的项目的出现频率,而将存储器划分为两个级,并且通过根据计数排除出现频率低于预定值的项目而减少存储器使用。通过提供具有多个级的存储器结构,当要标识具有高出现频率的项目时,可以有效地使用存储器。
引用列表
专利文献
专利文献1日本专利公开号2004-240985
专利文献2日本专利公开号2008-159047
专利文献3日本专利公开号2004-164611
非专利文献
非专利文献1
G.S.Manku,Rajeev Motwani,“Approximate frequency counts over data streams”,VLDB2002.
非专利文献2
Rong等人,“Mnemonic lossy counting:an efficient and accurate heavy-hitters identification algorithm”,IPCCC2010.
非专利文献3
Dimitropoulos等人,“Probabilistic lossy counting:an efficient algorithm for finding heavy hitter”,ACM SIGCOMM2008.
发明内容
技术问题
然而,当使用LC技术时,存储器使用相对于项目的数据长度呈对数级增长。因此,当数据流中的数据量巨大并且具有高出现频率的项目的数目也很巨大时,由于例如存储器容量不足,使用这一技术可能无法高精度地标识具有高出现频率的项目。而且,考虑到LC技术仅可以将存储器划分为两个级,其无法完全开发具有不同的存储器容量和访问时间的多级高速缓存存储器。因此,当使用目前计算机系统中普遍的多级高速缓存存储器时,无法通过LC技术有效地计算出现频率,因此无法完全开发出多级高速缓存存储器的性能。
鉴于这种情形,本发明的一个目的是提供一种能够有效地标识在大量的文本数据流中包括的项目之中具有最高出现频率的项目的方法、设备和计算机程序。
问题的解决方案
为了实现本发明的这一目的,本发明的第一方面是用于使用具有多级存储器的计算机系统、来标识在文本数据流中包括的项目之中具有最高出现频率的项目的方法,其中,该计算机系统包括:将用于标识项目的标识信息和项目的计数存储在具有多个级的存储器中的存储器的较高级中,并且仅将标识信息存储在具有多个级的存储器中低于存储器的较高级的存储器的较低级中,并且其中,该方法包括步骤:接收文本数据流输入,并且响应于将从所接收的文本 数据流输入划分出的桶中包括的项目的标识信息存储在存储器的较高级中,增加项目的计数的增量,响应于存储在存储器的较低级中,向存储器的较高级传送该项目的标识信息以及初始计数,以及响应于没有存储在任何级中,将该项目的标识信息以及初始计数新存储在存储器的较高级中。
本发明的第二方面根据本发明的第一方面的方法,其中,计数错误与标识信息相关联,并且存储在存储器的较高级中,并且,其中该方法还包括步骤:基于存储器的较高级中存储的计数和错误,计算针对与存储在存储器的较高级中的标识信息相对应的每个项目的、每桶的计数;以及,响应于所计算的每桶的计数小于第一阈值,向存储器的较低级传送项目的标识信息。
本发明的第三方面是根据本发明的第二方面的方法,其中,第一阈值是桶数目,并且桶数目是项目的出现频率的当前计数。
本发明的第四方面是根据本发明的第一到第三方面中任意一个的方法,其中,该方法还包括步骤:响应于项目的计数小于第二阈值,从存储器的较高级以及从存储器的较低级移除项目的标识信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310132171.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页中插入影音广告的方法
- 下一篇:可摄像的电视机