[发明专利]一种信息存储方法、信息查询方法、搜索引擎装置有效
申请号: | 201610499406.8 | 申请日: | 2016-06-30 |
公开(公告)号: | CN105956203B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 赵炜 | 申请(专利权)人: | 湖州亿联信息技术有限公司;赵炜 |
主分类号: | G06F16/31 | 分类号: | G06F16/31 |
代理公司: | 湖州金卫知识产权代理事务所(普通合伙) 33232 | 代理人: | 赵卫康 |
地址: | 313000 浙江省湖州市湖州经济技*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种信息存储方法、信息查询方法、搜索引擎装置,属于通信、数据库存储领域。本发明信息存储方法,首先收集文档和术语信息,其次建立索引,计算权重构建索引项数据结构,接着建立索引项地址相关联的比特映射组,最后根据比特映射组建立哈希表。本发明信息查询方法基于上述信息存储方法实现,根据查询术语加载与之相关的比特映射组;加载比特映射组内的8*b比特数据块,b为大于0的整数,形成关键字,并根据哈希表查询术语的权重,最后计算该文档得分;当查询术语为多个,继续加载8*b比特数据块直至加载所有,之后对前k候选文档按得分排序;当查询术语为1个,结束。本发明基于比特映射和哈希表完成,不仅能使用多种逻辑运算,且运算速度大幅提高,提高了CPU运行效率。 | ||
搜索关键词: | 一种 信息 存储 方法 查询 搜索引擎 装置 | ||
【主权项】:
1.一种信息存储方法,其特征在于,步骤1:收集文档和术语信息,每个文档标识有文档编号docid,所述文档编号docid为不小于零的整数;步骤1.1:计算每个文档d的每个术语t的术语频率并保存;步骤1.2:建立文档频率的全局表,其中,全局表为能够反映整个文档集中有多少文档包含某个术语的表,为反映术语稀有性的文档频率;步骤2:建立索引;步骤2.1:对每个文档,根据术语频率和文档频率计算在此文档中术语的权重;步骤2.2:建立索引项数据结构,保存每个索引项,每个索引项存储文档编号docid、术语t和权重W;步骤2.3:建立比特映射组,保存每个术语t的文档编号docid,每个比特映射组内“1”标识为某个文档编号docid下,该文档d包含术语t ,“0”标识为某个文档编号docid下,该文档d不包含术语t;步骤2.4:建立哈希表,所述哈希表由多个比特映射组内8*b比特数据块构成,每个8*b比特数据块以关键字标识,其中n不小于0,为8*b比特数据块的序号,data为8*b比特数据,每个8*b比特数据块存储有关键字值,所述关键字值为索引项数据结构内的索引项,其中b为大于0的整数;步骤2.4哈希表填充方法具体为:步骤2.4.1:对给定术语t,从比特映射中加载8*b比特数据块,加载具有文档编号docid的每个文档的相关术语权重;步骤2.4.2:基于比特映射中的多组8*b比特数据块,建立可变索引项阵列;步骤2.4.3:形成关键字;步骤2.4.4:在哈希表内插入关键字值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖州亿联信息技术有限公司;赵炜,未经湖州亿联信息技术有限公司;赵炜许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610499406.8/,转载请声明来源钻瓜专利网。
- 上一篇:会话Session满意度评估的方法及装置
- 下一篇:数据库管理系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置