[发明专利]一种对海量URL进行存储和查询方法有效
申请号: | 201110338204.2 | 申请日: | 2011-10-31 |
公开(公告)号: | CN102411617A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 李建明 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 李稚婷 |
地址: | 100044 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 url 进行 存储 查询 方法 | ||
技术领域
本发明涉及海量数据结构化存储和查询领域,特别涉及一种对海量结构化URL(Uniform Resource Locator)进行快速存储和查询的方法。
背景技术
随着互联网的普及,世界范围内的互联网网站个数和互联网的使用用户都在不断的增加,从而使得互联网的数据在以指数级的速度增长,而和互联网息息相关的便是网站的URL和相应的内容。
URL即统一资源定位符(Uniform Resource Locator),也被称为网页地址,是因特网上标准的资源的地址。它最初是由蒂姆·伯纳斯-李发明用来作为万维网的地址的,现在它已经被万维网联盟编制为因特网标准RFC1738。URL是对可以从因特网上得到的资源的位置和访问方法的一种简洁的表示。URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。
URL相当于一个文件名在网络范围的扩展。因此URL是与因特网相连的机器上的任何可访问对象的一个指针。URL的一般形式是:
<URL的访问方式>://<主机>:<端口>/<路径>
URL就像一个人的身份证号,它是一个互联网页面的唯一标识,同时也是一个互联网页面的唯一入口,无论是手动输入URL和是通过其他连接转入一个互联网页面,它们进入页面是都需要这个全球唯一的URL。对于互联网信息搜索应用领域,需要记录下每个收集到的页面信息,页面信息包括页面的URL和其他的页面内容。那么,面对如此大量的URL信息该如何快速的根据URL进行检索呢?目前主要有以下两种解决方法:
1.通过对URL建立全文索引进行检索。
2.通过对URL建立普通的树形索引进行检索。
在面临海量结构化URL的查询中,上述方法都不够完善。
第一种方法的优点是数据加载速度快,查询速度快,但是因为全文索引要把URL进行拆分处理,所以不能对URL数据进行精确查询和后模糊匹配查询。例如:如果要检索URL等于“www.hostname.com/house/beijing/dongcheng.html”的信息,在使用全文索引进行检索的时候,会返回包含以上URL中的一个或是多个单词的URL(如会返回包含hostname或是beijing的URL),而不能只返回完全匹配的URL,从而不能实现精确匹配的查询。同样的道理,对URL后模糊匹配全文索引也不能实现。
第二种方法的优点是支持精确和后模糊查询,但查询性能一般。因为要对很长的字符串建索引,建立索引的数据的行数多,字符串长度大,造成数据加载性能低下,不能满足海量数据的处理要求。
发明内容
本发明的目的在于提供一种对URL数据进行存储和查询的方法,用以解决海量URL的快速存储和精确、后模糊匹配查询。
本发明的技术方案如下:
一种对海量URL进行存储和查询的方法,首先设计如下数据表(表1)用于存储URL信息:
表1
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110338204.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新型代币除水机构
- 下一篇:一种冰箱门梁防露结构