[发明专利]一种用于离线搜索的小规模索引数据存储方法有效
申请号: | 201510884263.8 | 申请日: | 2015-12-04 |
公开(公告)号: | CN105426519B | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 许军才;张卫东;赖金辉;任青文;沈振中 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 陈静 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于离线搜索的小规模索引数据存储方法,包括如下步骤:将数据内容按照从0开始的顺序编号,将各标题存入数组中;逐一对数据内容拆分关键字;逐一将拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;在对所有内容完成分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;将关联数组做序列化输出成字符串,对该字符串再次压缩。本发明提供的索引数据存储方法,具有结构简单,数据紧凑,查询速度快,以及对组合查询运算友好的特性。 | ||
搜索关键词: | 一种 用于 离线 搜索 小规模 索引 数据 存储 方法 | ||
【主权项】:
1.一种用于离线搜索的小规模索引数据存储方法,其特征在于,包括如下步骤:(1)将数据内容按照从0开始的顺序编号,将各标题存入数组中;(2)逐一对数据内容拆分关键字;(3)逐一将步骤(2)中拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;(4)在对所有内容完成前述步骤(1)~步骤(3)的分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;(5)将步骤(4)中关联数组做序列化输出成字符串,对该字符串再次压缩;如果网站服务器支持gzip压缩方式,则直接利用网站服务器来压缩;(6)客户端在取得经压缩的关联数组字符串之后,将其解压并反序列化,获得关联数组索引结构;(7)在用户查询单一关键字时,用Javascript从关联数组中查询关键字,如果找到了,将该键的值表达成查询结果,返回一个有网页或文档标题的列表;(8)对于组合查询,用Javascript从关联数组中查询各关键字,将其找到的值做组合运算,其运算结果即为结果大二进制数字,如果某位为1则该篇网页或文档存在,为0则不存在,给用户返回一个查询结果即可。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510884263.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种页面信息选取的方法及装置
- 下一篇:一种基于树形结构的索引方法