[发明专利]更新索引表的方法及装置、基于索引表检索的方法及装置在审

申请号：	201410806400.1	申请日：	2014-12-19
公开（公告）号：	CN104572879A	公开（公告）日：	2015-04-29
发明（设计）人：	刘曙;关涛;于立柱	申请（专利权）人：	乐视网信息技术（北京）股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	刘戈
地址：	100089 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	更新索引方法装置基于检索
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本申请涉及信息检索技术领域，具体涉及一种基于分词更新索引表的方法及装置，以及基于索引表进行检索的方法及装置。

背景技术

互联网技术的发展给人类的生活带来了极大的方便，各种各样的内容充斥着网络，如何在互联网的海洋中找到自己关注的内容也是互联网开发者们一直努力解决的问题。每一个网站都有自己的搜索引擎，现有技术中的网站的搜索引擎在接收到用户发起的搜索请求后，会通过接口将搜索到的相关结果反馈给用户。

因此，如何通过一种合理高效的索引结构将通过接口搜索到的相关结果保存起来就成为了亟待解决的技术问题。另外如何准确、快速地利用这种索引结构搜索到相关搜索信息并反馈给用户成为了亟待解决的另一技术问题。

发明内容

本申请的目的在于提供一种基于分词更新索引表的方法及装置，以及基于索引表进行检索的方法及装置。

为了达成上述目的，本申请揭示了一种基于分词更新索引表的方法，包括：为收集的文本分配文本标识，并对所述文本进行分词处理；统计所述文本处理后得到的各分词在所述文本内出现的次数以及出现的位置，并依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储；将所述文本标识绑定在所述文本内各分词的共生信息中，将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表。

进一步地，统计所述文本处理后得到的各分词在所述文本内出现的位置，包括：对所述文本处理后得到的依序排列的各分词，以各分词的序数标识各分词在所述文本内出现的位置。

进一步地，依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储，包括：以内存区块的方式对各分词的共生信息进行存储，一个内存区块存储一个或多个文本内各分词的共生信息，属于同一个文本的所有分词的共生信息被分配至同一个内存区块，每个内存区块内待存储的各分词的共生信息由当前可用的最高地址开始进行存储。

进一步地，在每个内存区块内设置有时间戳，所述时间戳记录每个内存区块内最近一次的存储时间；以单向环形链表组织多个内存区块，以头指针和尾指针分别标识起始内存区块和结束内存区块，从头指针到尾指针的方向上，各内存区块的时间戳所显示的存储时间距当前时间越来越远。

进一步地，将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表，包括：采用双向环形链表建立所述索引表，所述索引表中每个节点对应一分词并存储与所述分词对应的共生信息；对于绑定处理后的各分词的共生信息，根据所述各分词中的每一个，在所述索引表的节点上进行遍历，当命中某一分词时，在命中的所述分词对应的节点上添加绑定处理后的对应分词的共生信息，或，当没有命中的分词时，在所述索引表中的空白节点上创建所述没有命中的分词，并在所述空白节点上存储经绑定处理后的所述没有命中的分词的共生信息。

进一步地，周期性对所述索引表中的所有节点的有效性进行查询，当节点内存储的绑定处理后的所有分词的共生信息失效时，在所述索引表中屏蔽所述节点；当所述节点被屏蔽的时长超过一预设门限，清空所述节点，保留所述节点的内存空间。

为了达成上述目的，本申请还揭示了一种基于索引表进行检索的方法，包括：识别用户输入的搜索词并对所述搜索词进行分词，根据分词处理所得到的多个分词中的每一个分别在索引表中进行遍历，获得命中的分词对应的多个节点，其中，所述索引表的更新采用如上述任一项所述基于分词更新索引表的方法；针对命中的每一个节点，分别获取所述节点内所存储的所有共生信息形成一组共生信息，从而得到与命中的节点对应数量的多组共生信息；由所述多组共生信息中提取出具有同一文本标识的共生信息，对于具有同一文本标识的共生信息，成对地比较所述同一文本标识的共生信息中对应分词在文本中出现的位置以及出现的次数，当所述对应分词在文本中出现的位置之间的距离小于或等于一第一门限且所述次数小于或等于一第二门限时，将所述同一文本标识的共生信息中的文本标识进行输出。

为了达成上述目的，本申请还揭示了一种基于分词更新索引表的装置，包括：分词配置模块，用于为收集的文本分配文本标识，并对所述文本进行分词处理；统计存储模块，用于统计所述文本处理后得到的各分词在所述文本内出现的次数以及出现的位置，并依据各分词在所述文本内出现的次数以及出现的位置形成所述文本内各分词的共生信息进行存储；索引更新模块，用于将所述文本标识绑定在所述文本内各分词的共生信息中，将绑定处理后的各分词的共生信息与索引表中的相应分词建立对应关系从而更新所述索引表。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于乐视网信息技术（北京）股份有限公司;，未经乐视网信息技术（北京）股份有限公司;许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410806400.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种Hbase数据库的控制数据入库的方法
下一篇：游戏舆情的检测方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]更新索引表的方法及装置、基于索引表检索的方法及装置在审

专利文献下载