[发明专利]一种基于索引分片均衡的大数据云搜索系统及其方法有效
申请号: | 201610937723.3 | 申请日: | 2016-10-25 |
公开(公告)号: | CN106528683B | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 蔡叙明 | 申请(专利权)人: | 深圳市盛凯信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市福田区车公*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于索引分片均衡的大数据云搜索系统及其方法。本发明旨在解决基于Apache Lucene引擎的大数据云搜索系统当中,索引分片难于在集群的节点之间合理高效进行分配的问题。本发明的大数据云搜索系统及方法基于负载均衡原则进行索引分片的分配,并且根据被分配的索引分片的内容相关度,将内容相关度高的索引分片分配在不同的节点上承担。本发明能够实现索引分片被查询调用所带来的计算负荷在各个节点之间的均衡化分布,避免集群中部分节点过载造成的延迟过大等问题,也抑制部分节点过闲的现象存在。 | ||
搜索关键词: | 一种 基于 索引 分片 均衡 数据 搜索 平台 及其 方法 | ||
【主权项】:
一种基于索引分片均衡的大数据云搜索系统,其特征在于,包括:Apache Lucene引擎单元,基于Apache Lucene的搜索引擎架构,包括分析器、索引编写器以及查询引擎模块;分析器获得由各种类型的数据源文件转化的源文本数据,通过分析处理将源文本数据转换为标记;索引编写器用于生成和管理索引,将由分析器转换而成的标记保存在索引的数据结构之中,所生成的索引的文件形式为索引分片,临时缓存索引分片并将所述索引分片提供给节点集群进行存储;所述索引分片包括主索引分片和至少一个副本索引分片;每个索引分片具有自身的索引分片ID;查询引擎模块进一步包括查询解析器和索引搜索器;查询解析器用于将用户输入的关键词、词组、短句等查询条件通过调用分析器转换为查询条件项,索引搜索器基于转换而来的查询条件项,向节点集群发起查询请求;索引搜索器获得节点集群的反馈结果,并根据该反馈结果确定索引分片与查询条件项的匹配程度,产生分数,并按照分数的排序返回搜索结果;节点集群,包括若干节点,所述节点用于存储由Apache Lucene引擎单元提供的索引分片,并承担索引分片被查询调用的负荷;节点集群接收所述查询请求,根据该查询请求所指向的索引分片,将查询请求分配给存储相应的索引分片的节点,由该节点响应该查询请求而在查询请求所指向的索引分片中完成查询相关的计算,生成反馈结果;索引分片分析单元,用于为索引分片生成内容标识符;索引分片分配管理单元,包括索引分片分配记录模块、节点能力状态管理模块和分配方案确定模块;其中索引分片分配记录模块,用于为节点集群中的每一个节点生成并存储一个索引分片分配记录表,索引分片分配记录表记录了在本节点上承担的每个索引分片的相关信息,所述相关信息中包括索引分片的索引分片ID、内容标识符、热度等级以及主副标识;节点能力状态管理模块,用于实时从集群的各节点获得节点处理能力参数,并通过节点能力状态列表对各节点实时的节点处理能力参数进行保存;分配方案确定模块,获取当前待分配的索引分片的索引分片ID;根据所获取的当前待分配的索引分片的索引分片ID,统计当前分布在各热度等级上的待分配索引分片的数量;确定集群中的可用节点及其节点号;通过查询所述节点能力状态列表当中各个可用节点的节点处理能力参数,决定各可用节点在各热度等级上分别承担的待分配索引分片的承担数量;按照该承担数量将各热度等级上的待分配索引分片分派给可用节点,形成分配方案;分配方案包括可用节点的节点号和每个可用节点被分配的索引分片的索引分片ID;将分配方案传输给Apache Lucene引擎单元和索引分片分配记录模块;并且,索引分片分配记录模块则根据分配方案,更新每个节点的索引分片分配记录表;Apache Lucene引擎单元根据所述分配方案,将分配方案中的索引分片ID对应的索引分片传输给相应节点号的可用节点进行存储和承担,或,将涉及分配方案中的索引分片的查询请求重定位到指向分配方案中与该索引分片对应的节点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市盛凯信息科技有限公司,未经深圳市盛凯信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610937723.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种呼叫中心大数据文本挖掘系统
- 下一篇:一种建立工程材料数据库的方法及系统