[发明专利]一种高效的海量舆情数据信息集群匹配方法有效

申请号：	201710453666.6	申请日：	2017-06-15
公开（公告）号：	CN107169143B	公开（公告）日：	2020-06-16
发明（设计）人：	吴梁斌;庄国强;巫锡燥;梁丽琴	申请（专利权）人：	易联众信息技术股份有限公司;易联众（厦门）大数据科技有限公司
主分类号：	G06F16/335	分类号：	G06F16/335;G06F16/951;G06F16/953;G06F16/9535;H04L29/08
代理公司：	北京远大卓悦知识产权代理事务所(普通合伙) 11369	代理人：	梁雪娇
地址：	361008 福建省厦***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种高效海量舆情数据信息集群匹配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种高效的海量舆情数据信息集群匹配方法，其特征在于，包括如下步骤：

S100、将Flume部署至各个舆情采集服务器上，并通过Flume采集从互联网爬取的舆情数据信息；

S110、将从Flume采集到的舆情数据信息存储到Kafka消息队列中；

S120、从Kafka实时消费舆情数据，并利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配；在步骤S120中利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配时，把所有企业信息均加载至Spark内存中；在步骤S120中利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配时，若企业信息容量超过内存，则Spark会保存至本地文件，再采用Hash散列的算法把每个企业信息分发到不同的work中与舆情数据信息进行匹配；

S130、将匹配成功后的关联数据信息展示到各个web系统上。

2.根据权利要求1所述的高效的海量舆情数据信息集群匹配方法，其特征在于，在步骤S110中将从Flume采集到的舆情数据信息存储到Kafka消息队列中，为了对企业舆情数据做离线数据分析，还包括：

将从Flume采集到的舆情数据信息同时存储到HDFS消息队列中。

3.根据权利要求1所述的高效的海量舆情数据信息集群匹配方法，其特征在于，在对企业信息处理前，对企业信息数据进行清洗处理。

4.根据权利要求1所述的高效的海量舆情数据信息集群匹配方法，其特征在于，步骤S100中根据数据量动态调整舆情采集服务器的部署数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于易联众信息技术股份有限公司;易联众（厦门）大数据科技有限公司，未经易联众信息技术股份有限公司;易联众（厦门）大数据科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710453666.6/1.html，转载请声明来源钻瓜专利网。