[发明专利]用于大数据分析的云端数据处理方法在审
申请号: | 201810226613.5 | 申请日: | 2018-03-19 |
公开(公告)号: | CN108388668A | 公开(公告)日: | 2018-08-10 |
发明(设计)人: | 张悠;陈熹 | 申请(专利权)人: | 四川意高汇智科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 杨春 |
地址: | 610000 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主页面 命中 数据处理 大数据 集合 云端 页面 多维搜索 页面数据 数据搜索引擎 存储节点 多维数据 高效实现 关联关系 排序规则 排序结果 搜索索引 搜索引擎 索引结构 过滤项 预定义 分析 分词 排序 存储 搜索 更新 优化 保证 | ||
本发明提供了一种用于大数据分析的云端数据处理方法,该方法包括:将爬取得到的主页面数据以及次级页面数据分别存储于不同的Hadoop存储节点中;根据主页面数据以及次级页面数据之间的关联关系,建立用于进行多维搜索的索引结构;搜索索引结构,获取与分词过滤项对应的命中主页面ID集合,以及与命中主页面ID对应的命中次级页面ID集合;按照预定义排序规则对与命中主页面ID集合对应的命中主页面进行排序,并将排序结果结合与命中次级页面ID集合对应的命中次级页面进行显示。本发明提出了一种用于大数据分析的云端数据处理方法,优化了数据搜索引擎技术,在保证搜索引擎对多维数据高性能搜索的同时,降低了数据的更新代价,高效实现了多维搜索。
技术领域
本发明涉及大数据搜索,特别涉及一种用于大数据分析的云端数据处理方法。
背景技术
大数据正在发生着巨大的变化,客户数据、交易数据、社交媒体数据和网络行为等数据,都蕴含着巨大的高价值商业信息,它们决定着企业的未来和发展。基于大数据的实时搜索的要求也变得越来越高了,而当前开源的大数据环境下的实时搜索引擎由于其性能、稳定性和经验积累等原因还存在一定的使用风险,而且在多维数据高性能搜索的同时,时间和空间代价过高。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种用于大数据分析的云端数据处理方法,包括:
将爬取得到的主页面数据以及次级页面数据分别存储于不同的Hadoop存储节点中;
根据主页面数据以及次级页面数据之间的关联关系,建立用于进行多维搜索的索引结构;
搜索索引结构,获取与分词过滤项对应的命中主页面ID集合,以及与命中主页面ID对应的命中次级页面ID集合;
按照预定义排序规则对与命中主页面ID集合对应的命中主页面进行排序,并将排序结果结合与命中次级页面ID集合对应的命中次级页面进行显示。
优选地,所述将爬虫模块爬取得到的主页面数据以及次级页面数据分别存储于不同的Hadoop存储节点中,进一步包括:
将属于同一主页面的至少一个次级页面连续存储于Hadoop存储节点中连续的物理区块。
优选地,所述根据主页面数据以及次级页面数据之间的关联关系,建立用于进行多维搜索的索引结构,进一步包括,根据主页面数据以及次级页面数据之间的关联关系,建立主页面反向索引表以及次级页面反向索引表。
优选地,所述主页面反向索引表中记录有与主页面关联的次级页面的存储位置,在次级页面反向索引表中记录有与次级页面关联的主页面的存储位置。
本发明相比现有技术,具有以下优点:
本发明提出了一种用于大数据分析的云端数据处理方法,优化了数据搜索引擎技术,在保证搜索引擎对多维数据高性能搜索的同时,降低了数据的更新代价,高效实现了多维搜索。
附图说明
图1是根据本发明实施例的用于大数据分析的云端数据处理方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种用于大数据分析的云端数据处理方法。图1是根据本发明实施例的用于大数据分析的云端数据处理方法流程图。本发明适用于建立进行多维搜索的索引结构的情况,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川意高汇智科技有限公司,未经四川意高汇智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810226613.5/2.html,转载请声明来源钻瓜专利网。