[发明专利]一种热点新闻发现系统及方法在审
申请号: | 202111040356.4 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113705231A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 王欢;朱善伟;马云腾;余强 | 申请(专利权)人: | 北京清博智能科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06K9/62;G06F16/951;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热点新闻 发现 系统 方法 | ||
1.一种热点新闻发现系统,其特征在于:包括数据采集模块、数据分析模块、数据展示模块,数据分析模块包括数据加工清洗单元、数据存储单元、数据去重单元、路径计算单元、热点新闻计算单元;
所述数据采集模块用于对全网舆情数据进行采集,并实时发送至数据分析模块;数据分析模块用于对全网舆情数据进行聚合分析,并将分析结果发送至数据展示模块进行对外展示;
所述数据加工清洗单元用于对来自数据采集模块的全网舆情数据进行预处理;
所述数据存储单元用于对数据加工清洗单元预处理后的数据进行存储,并供数据去重单元进行调取;
所述数据去重单元用于对预处理后的数据进行去重处理;
所述路径计算单元用于对去重处理后的数据进行传播路径计算;
所述热点新闻计算单元用于对传播路径计算后的数据进行热度值统计,并分析出热点新闻。
2.根据权利要求1所述的一种热点新闻发现系统,其特征在于:所述预处理具体包括:将全网舆情数据推送至消息队列kafka中,通过模型分析和维表关联进行数据补充,然后通过人工挑选出网页站点及发布者账号信息,再依据这些站点信息从全网舆情数据中提取出高质量的文章,为后续数据处理做准备。
3.根据权利要求2所述的一种热点新闻发现系统,其特征在于:所述kafka中的全网舆情数据,利用flink实时流技术进行处理并对数据进行实时分析,通过NLP算法模型分析数据并打上数据标签。
4.根据权利要求2所述的一种热点新闻发现系统,其特征在于:所述数据处理包括文本分词、关键词提取、相似度计算、基于NLP算法的文本提及地域信息提取、文本分类、情感正负面分析、标题提取、摘要提取。
5.根据权利要求1所述的一种热点新闻发现系统,其特征在于:所述数据存储单元包括ElasticSearch数据库和AnalyticDB数据库,ElasticSearch数据库用于热点事件详情数据展示,AnalyticDB数据库用于热点事件分析。
6.根据权利要求1所述的一种热点新闻发现系统,其特征在于:所述数据去重单元具体包括:通过MD5算法生成文章的唯一主键id,接着对基于NLP算法提取的新闻摘要进行句子切分,找出对应的特征句,并通过MD5算法生成对应文章相似值特征值;然后对文章的主键id、文章特征值、作者id、新闻发布平台字段进行初步去重,再通过NLP算法对相似新闻标题进行合并来完成二次去重;
其中,基于NLP算法提取的新闻摘要具体采用unilm统一语言模型,先把文章切分成出众多句子,对文章进行分词,再通过词向量将每个句子转化成句向量,然后通过textrank算法计算出核心句来作为整篇文章的摘要,并使用MD5算法计算出每篇文章的相似特征值,为每一条数据标记上对应的相似值。
7.根据权利要求1所述的一种热点新闻发现系统,其特征在于:所述路径计算单元具体通过对相似值进行归类,获取到属于该事件的全网传播数据,分别对不同平台的数据进行分析,通过数据的转发关系和发布者信息,分析出数据的上下游关系,利用迭代、递归算法构建出整个事件的传播关系,再根据数据的发布时间进行排序归类,最终计算出整个事件在不同平台中的传播路径。
8.根据权利要求1所述的一种热点新闻发现系统,其特征在于:所述热点新闻计算单元具体采用定时触发的方式,分别对发布平台、省市区县进行分组聚合、排序,根据配置的站点权重值和热度值,统计分析出全网各平台的相关热点新闻。
9.根据权利要求1所述的一种热点新闻发现系统,其特征在于:所述数据展示模块基于html、javascript、php搭建。
10.根据权利要求1至9任一所述的一种热点新闻发现方法,其特征在于:所述方法包括以下步骤:
步骤一:对全网舆情数据进行采集;
步骤二:对采集到的全网舆情数据进行预处理;
步骤三:对预处理后的数据进行存储;
步骤四:对预处理后的数据进行去重处理;
步骤五:对去重处理后的数据进行传播路径计算;
步骤六:对传播路径计算后的数据进行热度值统计,并分析出热点新闻。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清博智能科技有限公司,未经北京清博智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111040356.4/1.html,转载请声明来源钻瓜专利网。