[发明专利]一种索引建立方法及装置有效
申请号: | 201711069369.8 | 申请日: | 2017-11-03 |
公开(公告)号: | CN107784110B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 谢永恒;张侠;火一莽;万月亮 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 索引 建立 方法 装置 | ||
1.一种索引建立方法,其特征在于,包括:
提取目标文本的特征词;
对所述特征词进行排序得到特征字符串;
对所述特征字符串应用MinHash算法,得到所述目标文本对应的哈希值;
查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶,若存在,则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引;
若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶,建立与所述哈希值匹配的索引映射桶,并建立所述哈希值与所述目标文本之间的索引;
所述方法还包括:
若所述映射缓存池中存在与所述哈希值匹配的索引映射桶,则将与所述哈希值对应的文本数据作为与所述目标文本相似的文本数据进行推荐;
所述方法还包括:
随机确定N个哈希函数;
基于所述N个哈希函数对目标文本的特征字符串分别进行哈希运算,得到N个哈希值;
统计所述N个哈希值位于映射缓存池中同一索引映射桶的相近哈希值的数量;
将所述相近哈希值的数量进行排序,并根据排序结果确定与所述目标文本相似的推荐文本数据集;
通过计算目标文本特征词元素集合与推荐文本数据特征词元素集合之间的相似度,得到所述目标文本与所述推荐文本数据集中每个推荐文本数据之间的相似度;
将相似度满足设定阈值的推荐文本数据进行推荐;
其中,N为正整数。
2.根据权利要求1所述的方法,其特征在于,在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引,包括:
若所述索引映射桶中不存在与所述哈希值相同的索引哈希值,则将所述哈希值存入所述索引映射桶中,并建立所述哈希值与所述目标文本之间的索引;
若所述索引映射桶中已经存在与所述哈希值相同的索引哈希值,则不对所述哈希值进行再次保存,直接建立所述索引哈希值与所述目标文本之间的索引。
3.根据权利要求1或2所述的方法,其特征在于,所述提取目标文本的特征词包括:
对目标文本进行分词;
根据各分词的词性和出现的频率确定所述目标文本的特征词。
4.根据权利要求3所述的方法,其特征在于,所述对目标文本进行分词包括:
基于大粒度或小粒度模式,结合词频以及词性选择对应的分词单元对所述目标文本以单词为单位进行划分,并标注每个单词的词性。
5.根据权利要求3所述的方法,其特征在于,在对目标文本进行分词之前,还包括:
对目标文本中不能识别的字符进行过滤。
6.一种索引建立装置,其特征在于,包括:
特征词提取模块,用于提取目标文本的特征词;
排序模块,用于对所述特征词进行排序得到特征字符串;
第一运算模块,用于对所述特征字符串应用MinHash算法,得到所述目标文本对应的哈希值;
第一建立模块,用于查找映射缓存池中是否存在与所述哈希值匹配的索引映射桶,若存在,则在所述索引映射桶中建立所述哈希值与所述目标文本之间的索引;
第二建立模块,用于若所述映射缓存池中不存在与所述哈希值匹配的索引映射桶,建立与所述哈希值匹配的索引映射桶,并建立所述哈希值与所述目标文本之间的索引;
所述装置还包括:
推荐模块,用于若所述映射缓存池中存在与所述哈希值匹配的索引映射桶,则将与所述哈希值对应的文本数据作为与所述目标文本相似的文本数据进行推荐;或者用于随机确定N个哈希函数;基于所述N个哈希函数对目标文本的特征字符串分别进行哈希运算,得到N个哈希值;统计所述N个哈希值位于映射缓存池中同一索引映射桶的相近哈希值的数量;将所述相近哈希值的数量进行排序,并根据排序结果确定与所述目标文本相似的推荐文本数据集;通过计算目标文本特征词元素集合与推荐文本数据特征词元素集合之间的相似度,得到所述目标文本与所述推荐文本数据集中每个推荐文本数据之间的相似度;将相似度满足设定阈值的推荐文本数据进行推荐;其中,N为正整数。
7.根据权利要求6所述的装置,其特征在于,所述第一建立模块包括:
保存单元,用于若所述索引映射桶中不存在与所述哈希值相同的索引哈希值,则将所述哈希值存入所述索引映射桶中,并建立所述哈希值与所述目标文本之间的索引;
建立单元,用于若所述索引映射桶中已经存在与所述哈希值相同的索引哈希值,则不对所述哈希值进行再次保存,直接建立所述索引哈希值与所述目标文本之间的索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711069369.8/1.html,转载请声明来源钻瓜专利网。