[发明专利]在数据库系统中计数项目的方法有效
申请号: | 201310356876.5 | 申请日: | 2010-06-21 |
公开(公告)号: | CN103488680B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 布林·罗伯特·多尔;格雷戈里·B·林达尔;迈克尔·马克森;基思·彼得斯;罗伯特·迈克尔·萨利巴;里奇·斯科伦塔;罗伯特·N·图尔;克利须那·斯里尼瓦桑 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 于静,杨晓光 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建立 搜索引擎 组合 | ||
1.一种在数据库系统中对项目进行计数的方法,包括:
在具有一个或多个节点的数据库系统处,其中所述节点包括一个或多个处理器和存储器,所述一个或多个节点的存储器存储要由所述一个或多个处理器执行的一个或多个程序,
识别M个项目;
计数所述M个项目中的独特项目;
确定所述M个项目中的独特项目的记录计数;以及
存储所述记录计数;
其中,确定所述记录计数包括:
对所述独特项目的每一个进行散列;
将所述独特项目中的每个独特项目的散列值分成N个部分,其中,每个部分表示为位值;
对于所述N个部分的每一个部分,找到最低设定位;
在N个中间值中的与各部分对应的中间值中设定与所述最低设定位相同的位;
将所述独特项目的所述N个中间值的最低未设定位的值求平均;以及
将平均值应用为以二次幂表示的对数值。
2.如权利要求1所述的方法,还包括:
将平均值应用为以二次幂表示的对数值之后,
在数据库的存储器中存储所述N个中间值。
3.如权利要求1所述的方法,其中独特项目的记录计数的精度是大约正负50%。
4.如权利要求1所述的方法,其中在所述N个中间值中,较大的位比较小的位更少可能被设置。
5.如权利要求1所述的方法,其中所述N个部分中的每个部分包括32位,所需的总共的记录计数存储器包括128位。
6.如权利要求1所述的方法,其中M个项目包括网站的导入链接的URL。
7.如权利要求1所述的方法,其中M个项目包括具有给定签名的电子邮件的收件人,其用于检测垃圾邮件。
8.如权利要求1所述的方法,其中M个项目包括具有给定签名的电子邮件发件人的C类IP网络,其用于检测来自僵尸网络的垃圾邮件。
9.如权利要求1所述的方法,其中M个项目包括链接网页的网页地理位置。
10.如权利要求1所述的方法,其中M个项目包括互联网服务器的IP子网,其中该互联网服务器包含链接网页的网页。
11.一种在数据库系统中对项目进行计数的方法,包括:
在具有一个或多个节点的数据库系统处,其中所述节点包括一个或多个处理器和存储器,所述一个或多个节点的存储器存储要由所述一个或多个处理器执行的一个或多个程序;
识别M个项目;
计数所述M个项目中的独特项目;
确定所述M个项目中的独特项目的记录计数;以及
存储所述记录计数,
其中,确定所述记录计数包括:
对所述独特项目的每一个进行散列;
将所述独特项目中的每个独特项目的散列值分成N个部分,其中,每个部分表示为位值;
对于所述N个部分中的每一个部分,找到最低设定位;
利用任意指数式衰减因数,在N个中间值中的与各部分对应的中间值中选择对哪个位进行设定;
将所述独特项目的所述N个中间值的最低未设定位的值求平均;以及
将平均值应用为以与任意指数衰减因数相关的任意底数表示的对数值。
12.如权利要求11所述的方法,其中在所述N个中间值中,较大的位比较小的位更少可能被设置。
13.如权利要求11所述的方法,其中所述N个部分中的每个部分包括32位,所需的总共的记录计数存储器包括128位。
14.如权利要求11所述的方法,其中M个项目包括网站的导入链接的URL。
15.如权利要求11所述的方法,其中M个项目包括具有给定签名的电子邮件的收件人,其用于检测垃圾邮件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310356876.5/1.html,转载请声明来源钻瓜专利网。