[发明专利]一种用于离线搜索的小规模索引数据存储方法有效

专利信息
申请号: 201510884263.8 申请日: 2015-12-04
公开(公告)号: CN105426519B 公开(公告)日: 2018-12-14
发明(设计)人: 许军才;张卫东;赖金辉;任青文;沈振中 申请(专利权)人: 河海大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 陈静
地址: 211100 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种用于离线搜索的小规模索引数据存储方法,包括如下步骤:将数据内容按照从0开始的顺序编号,将各标题存入数组中;逐一对数据内容拆分关键字;逐一将拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;在对所有内容完成分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;将关联数组做序列化输出成字符串,对该字符串再次压缩。本发明提供的索引数据存储方法,具有结构简单,数据紧凑,查询速度快,以及对组合查询运算友好的特性。
搜索关键词: 一种 用于 离线 搜索 小规模 索引 数据 存储 方法
【主权项】:
1.一种用于离线搜索的小规模索引数据存储方法,其特征在于,包括如下步骤:(1)将数据内容按照从0开始的顺序编号,将各标题存入数组中;(2)逐一对数据内容拆分关键字;(3)逐一将步骤(2)中拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;(4)在对所有内容完成前述步骤(1)~步骤(3)的分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;(5)将步骤(4)中关联数组做序列化输出成字符串,对该字符串再次压缩;如果网站服务器支持gzip压缩方式,则直接利用网站服务器来压缩;(6)客户端在取得经压缩的关联数组字符串之后,将其解压并反序列化,获得关联数组索引结构;(7)在用户查询单一关键字时,用Javascript从关联数组中查询关键字,如果找到了,将该键的值表达成查询结果,返回一个有网页或文档标题的列表;(8)对于组合查询,用Javascript从关联数组中查询各关键字,将其找到的值做组合运算,其运算结果即为结果大二进制数字,如果某位为1则该篇网页或文档存在,为0则不存在,给用户返回一个查询结果即可。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510884263.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top