[发明专利]一种对海量URL进行存储和查询方法有效

申请号：	201110338204.2	申请日：	2011-10-31
公开（公告）号：	CN102411617A	公开（公告）日：	2012-04-11
发明（设计）人：	李建明	申请（专利权）人：	北京锐安科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京君尚知识产权代理事务所(普通合伙) 11200	代理人：	李稚婷
地址：	100044 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种对海量URL进行存储和查询的方法，首先利用数据表存储URL的MD5值和特征字符串，其中特征字符串是先将URL原始字符串开头到“//WWW.”部分去除，再将剩余字符串按照“/”分割为多个字符串，取前N个分割后字符串的第一个和最后一个字符顺序拼接组成(N为8～12的整数)；分别对数据表中的特征字符串和MD5值建立树形索引。精确查询时，计算待查询URL的MD5值，查询数据表中的MD5字段即可；后模糊匹配查询时，根据待查询URL的特征字符串，先查询对数据表中的特征字符串字段，取特征字符串相符的URL值，再将待查询URL与这些URL值进行实际匹配查询。
搜索关键词：	一种海量 url 进行存储查询方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种对海量URL进行存储和查询的方法，首先将海量URL信息存入下述信息表中： URL MD5 Keywords Col1 Col2...存储步骤如下：1)对于URL的原始字符串，当“//”之后的字符串是“WWW.”时将开头到“//WWW.”部分的字符串去除，当“//”之后的字符串不是“WWW.”时则将开头到“//”部分的字符串去除，得到的URL剩余字符串存入信息表的URL字段中；2)计算URL原始字符串的MD5值，存入信息表的MD5字段中；3)按照“/”将URL剩余字符串分割为多个字符串，然后取第N个“/”之前的所有分割后字符串，将这些分割后字符串的第一个字符和最后一个字符顺序拼接组成一个特征字符串，存入信息表的keywords字段中，其中N为8～12的整数；4)其他和该URL关联的信息存入相同行的对应字段中；URL数据信息存入信息表后，分别对keywords字段和MD5字段建立树形索引；选择下述方法之一进行URL查询：A)精确查询，先如下处理待查询的URL原始字符串：当“//”之后的字符串是“WWW.”时将开头到“//WWW.”部分的字符串去除，当“//”之后的字符串不是“WWW.”时则将开头到“//”部分的字符串去除，得到URL剩余字符串；然后计算URL原始字符串的MD5值，查询数据表中的MD5字段，取MD5值相符的URL值；B)后模糊匹配查询，先如下处理待查询的URL原始字符串：当“//”之后的字符串是“WWW.”时将开头到“//WWW.”部分的字符串去除，当“//”之后的字符串不是“WWW.”时则将开头到“//”部分的字符串去除，得到URL剩余字符串；然后按照“/”将URL剩余字符串分割为多个字符串，取第N个“/”之前的所有分割后字符串，将这些分割后字符串的第一个字符和最后一个字符顺序拼接组成特征字符串，先对数据表中的keywords字段进行查询，取keywords相符的URL值，再将待查询的URL与该URL值进行实际匹配查询。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司，未经北京锐安科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110338204.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种对海量URL进行存储和查询方法有效

专利文献下载