[发明专利]用于在文本数据流中包括的项目之中标识具有最高出现频率的项目的方法和设备有效
申请号: | 201310132171.5 | 申请日: | 2013-04-16 |
公开(公告)号: | CN103377147A | 公开(公告)日: | 2013-10-30 |
发明(设计)人: | R·H·鲁迪;小柳光生;恐神贵行 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F12/08 | 分类号: | G06F12/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;李峥宇 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 数据流 包括 项目 之中 标识 具有 最高 出现 频率 方法 设备 | ||
1.一种用于使用具有多个级的存储器的计算机系统来在文本数据流中包括的项目之中标识具有高出现频率的项目的方法,其将用于标识项目的标识信息以及项目的计数存储在所述具有多个级的存储器的存储器的较高级中,以及仅将标识信息存储在所述具有多个级的存储器中的低于所述存储器的较高级的存储器的较低级中,
所述方法包括步骤:
接收文本数据流输入,以及
响应于将从所接收的文本数据流输入划分出的桶中包括的项目的标识信息存储在所述存储器的较高级中,增加项目的计数的增量,响应于存储在所述存储器的较低级中,向所述存储器的较高级传送所述项目的标识信息以及初始计数,以及响应于没有存储在任何级中,将所述项目的标识信息与所述初始计数一起新存储在所述存储器的较高级中。
2.根据权利要求1所述的方法,其中,计数错误与所述标识信息相关联,并且存储在所述存储器的较高级中,
并且,所述方法还包括步骤:
基于所述存储器的较高级中存储的计数和错误,计算针对与存储在所述存储器的较高级中的标识信息相对应的每个项目的每桶计数;以及
响应于所计算的每桶计数小于第一阈值,向所述存储器的较低级传送项目的标识信息。
3.根据权利要求2所述的方法,其中,所述第一阈值是桶数目,并且桶数目是项目的出现频率的当前计数。
4.根据权利要求1所述的方法,还包括如下步骤:响应于所述项目的计数小于第二阈值,从所述存储器的较高级以及所述存储器的较低级中移除所述项目的标识信息。
5.根据权利要求1所述的方法,其中,所述存储器的较高级是所述具有多个级的存储器中的存储器的最高级。
6.一种用于在文本数据流中包括的项目之中标识具有高出现频率的项目的设备,
所述设备包括:
具有多个级的存储器,其将用于标识项目的标识信息和项目的计数存储在具有多个级的存储器中的存储器的较高级中,以及仅将标识信息存储在具有多个级的存储器中低于存储器的较高级的存储器的较低级中,
输入接收装置,用于接收文本数据流输入,以及
存储存储器控制装置,用于响应于将从所接收的文本数据流输入划分出的桶中包括的项目的标识信息存储在所述存储器的较高级中,增加项目的计数的增量,用于响应于存储在所述存储器的较低级中,向所述存储器的较高级传送所述项目的标识信息以及初始计数,以及用于响应于没有存储在任何级中,将所述项目的标识信息以及初始计数新存储在所述存储器的较高级中。
7.根据权利要求6所述的设备,其中,计数错误与所述标识信息相关联,并且存储在所述存储器的较高级中,并且所述设备还包括:
计算装置,用于基于所述存储器的较高级中存储的计数和错误,计算针对与存储在所述存储器的较高级中的标识信息相对应的每个项目的每桶计数;以及
存储器间传送装置,用于响应于所计算的每桶计数小于第一阈值,向所述存储器的较低级传送项目的标识信息。
8.根据权利要求7所述的设备,其中,所述第一阈值是桶数目,所述桶数目是项目的出现频率的当前计数。
9.根据权利要求6所述的设备,还包括移除装置,其用于响应于所述项目的计数小于第二阈值,从所述存储器的较高级以及所述存储器的较低级中移除所述项目的标识信息。
10.根据权利要求6所述的设备,其中,所述存储器的较高级是所述具有多个级的存储器中的存储器的最高级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310132171.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页中插入影音广告的方法
- 下一篇:可摄像的电视机