[发明专利]在数据库系统中计数项目的方法有效
申请号: | 201310356876.5 | 申请日: | 2010-06-21 |
公开(公告)号: | CN103488680B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 布林·罗伯特·多尔;格雷戈里·B·林达尔;迈克尔·马克森;基思·彼得斯;罗伯特·迈克尔·萨利巴;里奇·斯科伦塔;罗伯特·N·图尔;克利须那·斯里尼瓦桑 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 于静,杨晓光 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建立 搜索引擎 组合 | ||
本申请是申请号为201080037040.3、申请日为2010年06月21日、发明名称为“可扩展的集群数据库”的PCT国际发明专利申请的分案申请。
技术领域
本应用涉及数字计算或数据处理的领域,其包括数据结构和数据库/文件访问和管理,尤其是用于分布式数据库系统中的传播,搜索和检索数据。
背景技术
分布式数据库系统可以用于存储和访问联网结构,例如大型集群,分布式计算系统,局域网,互联网和其他信息检索系统中的大规模数据。分布式数据库系统包括存储和处理设备,其典型地由中央数据库管理系统管理和控制。中央数据库管理系统可以存储在位于相同物理位置的多个计算机中,也可以分散在互联的计算机网络中。
由中央数据库管理系统控制的分布式数据库系统受多种原因限制。如果主机故障,即使主机是容错的,中央主机控制管理功能的事实也会导致暂时不可用。并且,诸如网络分区的问题经常引起集群中至少一部分不可用。最后,用于主机容错的算法,例如Paxos,经常需要大量的时间从故障中恢复,在此期间,系统部分或全部不可用。具有中央主机也可能损害可扩展性。
在大规模分布式系统中,由于异常情况,例如网络断开和电源故障,系统设备会频繁故障或失去网络连接。面对这些频繁故障,确保连续的系统可用性对于提供良好、等待时间短的操作是非常重要的。
分布式数据库系统的另一个问题是支持高写速率的困难。即使像在具有许多网络服务器的网站上计算点击次数这样简单的事情在今天看来也是个难题。由于记录文件分析非常昂贵,导致其经常不能实时完成。统计数据,例如访问网站的独特顾客的数量的产生是非常昂贵的。
今天在应用的尤其是应答搜索查询中的分布式数据库中,存在许多问题。搜索引擎对于在大型的文档数据库中定位文档,例如万维网(WWW)上的文档,或局域网的计算机上存储的文档,提供了有力的工具。响应于用户提交的搜索查询,定位文档。搜索查询由一个或多个搜索词组成。需要的是用于从数据库有效地和更智能地抽取相关信息的创新型技术。比仅仅是输入几个搜索词更智能的查询搜索引擎的能力对于今天的搜索引擎来说是更大的进步。查询结果的显示也可以使用这种改进。
发明内容
根据本公开的一个方面,涉及一种在数据库系统中计数项目的方法,包括:在具有一个或多个节点的数据库系统处,包括,一个或多个处理器和存储器,所述一个或多个节点的存储器存储要由所述一个或多个处理器执行的一个或多个程序;识别M个项目;计数M个项目中独特的项目;确定用于M个项目中独特项目的记录计数;和存储独特项目的记录计数,其中确定记录计数包括:将M个项目中每个独特的项目分为N个部分的集合,其中每个N个部分包括M个项目中独特项目的子集,其中独特项目的每个子集表述为位值;对于M个项目的每个子集,找到N个部分中每一个的最低未设定位;对于N个部分的集合中独特项目的每个子集,设定N个中间值中的最低位;对于N个部分的每个集合,将N个中间值的最低未设定位的值进行平均;以及将平均值作为二次幂表达的对数值进行应用。
该方法还包括:将平均值作为二次幂表达的对数值进行应用之后,在数据库的存储器中存储所述N个中间值。
其中,确定记录计数还包括确定该组独特项目的近似计数的精度近似等于正负50%。
其中,N个中间值中较大的位值相对于较小的位值,更不可能被设置。
其中,N个部分的集合中每个N个部分包括32位,所需的总共的记录计数存储器包括128位。
其中,M个项目包括网站的导入链接的URL。
其中,M个项目包括具有给定签名,用于检测垃圾邮件的电子邮件的收件人。
其中,M个项目包括具有给定签名,用于检测来自僵尸网络的垃圾邮件的电子邮件发件人的C类IP网络。
其中,M个项目包括链接网页的网页的地理位置。
其中,M个项目包括互联网服务器的IP子网,其中该互联网服务器包含链接网页的网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310356876.5/2.html,转载请声明来源钻瓜专利网。