[发明专利]一种基于海量新闻数据事件热度的新闻推荐方法有效

专利信息
申请号: 202011243231.7 申请日: 2020-11-09
公开(公告)号: CN112199601B 公开(公告)日: 2022-11-08
发明(设计)人: 李作康;高菁;张雷;王妍妍;袁林 申请(专利权)人: 中国电子科技集团公司第二十八研究所
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/953;G06F40/216;G06F40/289
代理公司: 江苏圣典律师事务所 32237 代理人: 于瀚文;胡建华
地址: 210007 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 海量 新闻 数据 事件 热度 推荐 方法
【说明书】:

发明提供了一种基于海量新闻数据事件热度的新闻推荐方法,首先利用Solr搜索引擎,从海量新闻文本数据中快速搜索出具体事件的新闻数据;接着利用HanLP自然语言包对新闻进行分词,通过构建事件词典,并将分词结果与词典进行匹配,根据新闻匹配程度筛选新闻;考虑事件的累加效应和新闻的衰减特性,进一步建立衡量事件热度的计算模型,从而分析事件的热度趋势变化情况,根据事件热度情况推荐新闻。本方法实现了通过构建事件词典,从海量新闻数据中筛选事件新闻,利用非结构化的新闻媒体数据,感知事件舆论热度演变趋势,根据事件热度推荐热点新闻。

技术领域

本发明涉及一种基于海量新闻数据事件热度的新闻推荐方法。

背景技术

在互联网高速发展的新时代,网络化让人与人更容易连接,网络信息传播内容丰富,网络舆论走向多元化,新闻作为主流舆论媒介,其传播力、导向力、影响力、公信力在反映社会客观事实、通达社情民意、引导社会热点、疏导公众情绪的方面发挥着重要作用。新闻数据量正在急速膨胀,如何从海量新闻中准确快速挖掘事件信息成为研究难点和热点,马旭等人提出一种基于大数据技术的新闻采集和事件分析系统,陈思雯等人研究了面向网络新闻的爬虫开发与热点新闻事件分析,张伦等人提出一种基于文本挖掘的公共事件分析方法。基于新闻的事件分析方法被广泛应用,黄诒蓉研究分析了金融研究中的新闻分析框架及应用,方树欣研究了地方政府利用新媒体进行公共舆论引导的策略,樊红等人开展了基于事件分析的Web地震新闻时空信息挖掘研究。实体信息抽取算法是进行新闻文本的事件信息和观点提取研究的关键技术,公冶小燕等人提出基于改进的TF-IDF算法及共现词的主题词抽取算法,龙光宇等人提出 CRF与词典相结合的疾病命名实体识别方法,邹纲等人开展了面向Internet的中文新词语检测研究,李娟等人开展了基于新词的新闻命名实体识别研究。自然语言处理技术不断进步,对于新闻文本的实体识别能力不断提高,但大多为针对单篇文本的处理研究,从海量新闻中感知事件的研究不够成熟。此外,目前通用的全球事件数据为谷歌维护的GDELT数据,事件的类型是固定不可调整,因此,在进行事件分析研究时,需要一种针对海量中文新闻文本数据,能够灵活自主确定事件类型和事件性质的事件热度感知方法,并自动推荐热点新闻。

发明内容

发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于海量新闻数据事件热度的新闻推荐方法,应用自然语言处理技术,实现了基于构建事件词典建立多词语新闻筛选机制,考虑率事件衰减,建立事件热度评估模型,从海量非结构化新闻数据中感知事件舆论热度趋势,自动推荐热点新闻。

实现本发明目的的具体技术解决方案为:利用Solr搜索引擎支撑海量新闻文本数据,实现新闻存储和快速查询;利用NLP技术对检索过滤的新闻进行分词和词性分析处理,基于构建事件词典建立多词语新闻筛选机制,考虑事件的累加效应和新闻的衰减特性建立事件热度模型,进而实现对事件热度变化的感知分析,进而自动推荐热点新闻,具体步骤为:

步骤1,构建事件词典;

步骤2,建立多词语新闻筛选机制,筛选过滤新闻数据;

步骤3,建立事件模型,基于事件词典对新闻进行筛选。

步骤1包括:根据关键词和新闻源参数,通过具有针对性的Solr查询语句,筛选过滤新闻数据,应用自然语言处理技术对新闻内容进行去停用词的分词处理,应用 TF-IDF算法统计获取新闻关键词,TF为词频,即词语新闻中出现的频率,为以防止新闻篇幅影响,对其进行归一化处理,IDF为逆向文件频率,是一个词语普遍重要性的度量。

针对第p篇新闻中的第q个词语A,其词频TFqp表示为:

其中nqp为第q个词语在第p篇新闻中的出现次数,w为单篇新闻中出现的词语数。

针对第p篇新闻中的第q个词语A,其逆向文件频率IDFqp表示为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011243231.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top