[发明专利]基于去中心化存储数据的索引建立方法有效
申请号: | 202110167802.1 | 申请日: | 2021-02-07 |
公开(公告)号: | CN112836008B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 周喜;石秋娥;王轶;马博;王磊;马玉鹏 | 申请(专利权)人: | 中国科学院新疆理化技术研究所 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 乌鲁木齐中科新兴专利事务所(普通合伙) 65106 | 代理人: | 张莉 |
地址: | 830011 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中心 存储 数据 索引 建立 方法 | ||
本发明涉及一种基于去中心化存储数据的索引建立方法,该去中心化存储数据的索引建立方法包括:选取对数据区分度高的词作为关键词;使用训练好的词向量模型将选取的关键词转为词向量表示;将词向量降维,得到关键词的哈希表示;将词哈希与数据标识组合,得到索引项,索引文件中包含词哈希与对应的数据的映射关系;使用分布式哈希表存储索引文件。数据请求者发起以关键词作为查询条件的查询请求时,通过匹配相应的索引文件,得到数据相关信息,若无法精确匹配,因为语义相似的关键词索引相邻存储,则在索引存储节点附近查询,从而实现索引查询。本发明能够实现去中心化存储数据的索引构造,通过关键词语义查询相关数据,满足去中心化数据获取的需求。
技术领域
本发明涉及信息技术领域中的信息处理技术、信息检索领域,尤其一种去中心化存储数据的索引建立方法。
背景技术
数据的去中心化存储是一种适合数据的规模量级不断提高、去中心化的优良解决方案,它在满足海量数据存储需求的同时,还可以有效的进行数据的共享。
非结构化的文本数据检索,其核心思想是建立全文检索的倒排索引。目前多数搜索引擎主要使用的就是倒排索引技术,需要精确匹配关键词。然而,不同用户对同一对象的描述往往都不完全一致。因此,词项含义相同或相近,而词项本身不同,检索结果差强人意,即在词级别语义概念上的检索并不理想。
目前还有一些做法是将文本映射到向量空间后,在向量空间执行搜索,但这一类技术只适合做文本的相似性匹配,在长文本和短查询之间存在较差的相识性,不适合用来做查询。
在现有的技术中存在以下问题:
1)索引建立未考虑词项之间的语义相似性;
2)索引使用的是中心化的存储方式;
为解决上述索引建立方法中存在的问题,本发明提供了一种去中心化存储数据的索引建立方法。该方法可以通过将关键词的语义相似性转为哈希相似性,建立索引项,将索引去中心化存储,使得语义相似的词的索引存储节点也相邻,实现去中心化数据的有效查询。
发明内容
本发明目的在于,提供一种基于去中心化存储数据的索引建立方法,用以解决现有去中心化存储数据中无法根据关键词语义有效查询相关数据的问题。该方法包括:选取对数据区分度高的词作为关键词;使用训练好的词向量模型将选取的关键词转为词向量表示;将词向量进行降维,得到关键词的词哈希;将词哈希与数据标识组合,得到索引项,索引文件中包含词哈希与对应的数据的映射关系;使用分布式哈希表存储索引文件。数据请求者发起以关键词作为查询条件的查询请求时,通过匹配相应的索引文件,得到数据相关信息,若无法精确匹配,因为语义相似的关键词索引相邻存储,则在索引存储节点附近查询,实现索引查询。本发明能够实现去中心化存储数据的索引构造,通过关键词语义查询相关数据,满足去中心化数据获取的需求。
本发明所述的一种基于去中心化存储数据的索引建立方法,该方法对去中心化存储的数据生成关键词语义相似性转为哈希相似性的关键词索引文件,具体操作按下列步骤进行:
a、将需要存储的文本存入数据存储节点后,得到一个唯一标识文本的数据标识;
b、对待建立索引文本进行预处理,包括分词,去停用词,去标点符号;
c、使用词频-逆文件频率的方法,获取文本的关键词,首先计算词在该文件中出现次数,记为词频,然后计算词在所有文本中出现的频率,记为逆文件频率,最后计算两者的乘积,乘积越大表示该词对这个文本的重要性越大,选取对文本区分度高的词作为关键词;
d、训练词向量模型,使用深度学习方法进行多次迭代训练,将训练数据集合内的每个词汇表示成为128维的特征向量;
e、获取关键词的语义特征,使用步骤d训练好的词向量模型将步骤c中所述关键词表示为128维的特征向量,得到关键词的词向量表示,语义相似的词在词向量空间位置相近,具有词向量相似性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院新疆理化技术研究所,未经中国科学院新疆理化技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110167802.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电磁屏蔽层
- 下一篇:一种有机酸或有机碱改性斜发沸石的制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置