[发明专利]用于大数据的搜索系统和搜索方法有效
申请号: | 201310392278.3 | 申请日: | 2013-09-02 |
公开(公告)号: | CN103488687A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 郭辉 | 申请(专利权)人: | 用友软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 100094 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数据 搜索 系统 方法 | ||
技术领域
本发明涉及数据搜索技术领域,具体而言,涉及一种用于大数据的搜索系统和一种用于大数据的搜索方法。
背景技术
企业大数据(big data),或称巨量资料,指的是企业生产、销售等过程中所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策起到积极目的的资讯。伴随着物联网、云计算、移动互联网、车联网等技术在企业信息管理中的大量应用,催生了大量的内部信息资源。据统计,企业数据每年以200%的速度增长,其中80%的数据以文件、邮件、图片、声音等非结构化数据形式存放在企业内计算机系统中,传统数据库管理系统不能胜任对这些数据的检索和处理工作,但这些大量又相对零散的数据对于企业来讲好比一座巨大的地下金矿,而大数据搜索可以成为企业在金矿里面掘金的一种手段,大数据搜索解决技术已经成为企业面临的一个急迫待解决问题。
企业搜索技术是企业处理内部非结构化数据的一种重要技术手段。然而在大数据时代,数据量不断膨胀,索引文件增长过快,导致搜索性能不断下降,在可用性和效率上已经成为企业搜索应用上的新瓶颈。
在现有技术中,目前现有解决企业大数据搜索主要有两种方法:
一、通过Apche开源项目Hadoop解决大数据的存储问题;
二、通过控制索引信息规模的方式,增量添加索引的时候,将一些不活跃索引进行删除,控制索引文件规模。
但是,上述两种方案在实际的应用过程中,都存在一些缺陷。比如在方案一中,Hadoop对企业大数据的实时搜索存在效率问题,Hadoop的强项是一次存储,多次读取,而企业数据频繁修改会严重影响效率;而方案二明显是一种迫不得已的方法,以牺牲数据量为代价来提高搜索效率问题。
因此,如何提升企业大数据的搜索效率,成为目前亟待解决的技术问题。
发明内容
本发明正是基于上述问题,提出了一种新的大数据的搜索技术,可以实现一种分布式的索引文件搜索方法,有助于提升搜索速度,解决企业大数据的搜索效率瓶颈问题。
有鉴于此,本发明提出了一种用于大数据的搜索系统,包括:分组单元,用于将所述大数据的索引文件分为一个或多个源组,每个源组中的索引文件包含有相同类型的资源数据;分片创建单元,用于对每个所述源组执行分片操作,得到多个分片索引文件,利用每个所述分片索引文件创建对应的索引分片;搜索单元,用于根据接收到的搜索指令,在指定的一个或多个索引分片对应的分片搜索文件中执行并发搜索操作,以获取并返回相应的搜索结果。
在该技术方案中,通过将索引文件进行分片,使得在执行搜索时,在多个索引分片上同时实现并发搜索操作,从而有效地缩短了完成所有索引文件的搜索时所需的时间,提升了搜索效率。通过根据资源数据的类型来生成不同的源组,使得在对相应的索引分片进行检索时,更易于用户根据自身的需求,直接指定对部分相应的索引分片进行检索,而无需对所有的索引分片都进行检索,有助于提升检索效率,降低检索操作所消耗的功耗和运算资源。其中,索引文件包含具体的资源数据以及基于这些资源数据生成的索引;同时,“指定的一个或多个索引分片”可以为用户根据自身的需求而指定的,也可以为默认的部分或所有的索引分片。
在上述技术方案中,优选地,所述分片创建单元用于:将同一个所述源组内的资源数据,按照所处的服务器的不同,分为与所述服务器一一对应的多个分片索引文件,并创建对应的索引分片。
在该技术方案中,对于原本就分别存储于多个服务器的资源数据,可以将每个服务器上存储的资源数据创建为对应的索引分片;对于原本就存储于同一个服务器中的资源数据,可以将其创建为相应的一个索引分片,或分组后创建为多个索引分片。通过基于服务器将资源数据创建为对应的索引分片,尽可能地减少了对于资源数据的移动操作,有助于减少占用的运算资源,避免数据转移可能造成的数据丢失等风险。
在上述任一技术方案中,优选地,所述分片创建单元还用于:对于处于相同服务器内的资源数据,根据关系的密切程度分为多个分片索引文件,并创建对应的索引分片。
在该技术方案中,密切程度是指资源数据之间是否同时满足一些预设的条件,当满足其中的一条或同时满足多条时,即可认为资源数据之间关系密切,可以作为同一类型的资源数据,用于存放在同一个索引分片中。具体地,数据之间存在关系的密切程度包括如一些数据总是(次数大于或等于预设的次数阈值)被同时调用或编辑,或一些数据都涉及到相同的用户、公司等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于用友软件股份有限公司,未经用友软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310392278.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置