[发明专利]更新索引表的方法及装置、基于索引表检索的方法及装置在审
申请号: | 201410806400.1 | 申请日: | 2014-12-19 |
公开(公告)号: | CN104572879A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 刘曙;关涛;于立柱 | 申请(专利权)人: | 乐视网信息技术(北京)股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘戈 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 更新 索引 方法 装置 基于 检索 | ||
1.一种基于分词更新索引表的方法,其特征在于,包括:
为收集的文本分配文本标识,并对所述文本进行分词处理;
统计所述文本处理后得到的各分词在所述文本内出现的次数以及出现的位置,并依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储;
将所述文本标识绑定在所述文本内各分词的共生信息中,将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表。
2.根据权利要求1所述的方法,其特征在于,统计所述文本处理后得到的各分词在所述文本内出现的位置,进一步包括:
对所述文本处理后得到的依序排列的各分词,以各分词的序数标识各分词在所述文本内出现的位置。
3.根据权利要求1所述的方法,其特征在于,依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储,进一步包括:
以内存区块的方式对各分词的共生信息进行存储,一个内存区块存储一个或多个文本内各分词的共生信息,属于同一个文本的所有分词的共生信息被分配至同一个内存区块,每个内存区块内待存储的各分词的共生信息由当前可用的最高地址开始进行存储。
4.根据权利要求3所述的方法,其特征在于,
在每个内存区块内设置有时间戳,所述时间戳记录每个内存区块内最近一次的存储时间;
以单向环形链表组织多个内存区块,以头指针和尾指针分别标识起始内存区块和结束内存区块,从头指针到尾指针的方向上,各内存区块的时间戳所显示的存储时间距当前时间越来越远。
5.根据权利要求1所述的方法,其特征在于,将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表,进一步包括:
采用双向环形链表建立所述索引表,所述索引表中每个节点对应一分词并存储与所述分词对应的共生信息;
对于绑定处理后的各分词的共生信息,根据所述各分词中的每一个,在所述索引表的节点上进行遍历,当命中某一分词时,在命中的所述分词对应的节点上添加绑定处理后的对应分词的共生信息,或,当没有命中的分词时,在所述索引表中的空白节点上创建所述没有命中的分词,并在所述空白节点上存储经绑定处理后的所述没有命中的分词的共生信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,
周期性对所述索引表中的所有节点的有效性进行查询,当节点内存储的绑定处理后的所有分词的共生信息失效时,在所述索引表中屏蔽所述节点;
当所述节点被屏蔽的时长超过一预设门限,清空所述节点,保留所述节点的内存空间。
7.一种基于索引表进行检索的方法,其特征在于,包括:
识别用户输入的搜索词并对所述搜索词进行分词,根据分词处理所得到的多个分词中的每一个分别在索引表中进行遍历,获得命中的分词对应的多个节点,其中,所述索引表的更新采用如权利要求1-6中任一项所述基于分词更新索引表的方法;
针对命中的每一个节点,分别获取所述节点内所存储的所有共生信息形成一组共生信息,从而得到与命中的节点对应数量的多组共生信息;
由所述多组共生信息中提取出具有同一文本标识的共生信息,对于具有同一文本标识的共生信息,成对地比较所述同一文本标识的共生信息中对应分词在文本中出现的位置以及出现的次数,当所述对应分词在文本中出现的位置之间的距离小于或等于一第一门限且所述次数小于或等于一第二门限时,将所述同一文本标识的共生信息中的文本标识进行输出。
8.一种基于分词更新索引表的装置,其特征在于,包括:
分词配置模块,用于为收集的文本分配文本标识,并对所述文本进行分词处理;
统计存储模块,用于统计所述文本处理后得到的各分词在所述文本内出现的次数以及出现的位置,并依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储;
索引更新模块,用于将所述文本标识绑定在所述文本内各分词的共生信息中,将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表。
9.根据权利要求8所述的装置,其特征在于,
所述统计存储模块,进一步用于在所述文本内任一分词的共生信息中,以增序方式存储所述任一分词在所述文本内出现的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐视网信息技术(北京)股份有限公司;,未经乐视网信息技术(北京)股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410806400.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种Hbase数据库的控制数据入库的方法
- 下一篇:游戏舆情的检测方法及系统