[发明专利]一种基于数据挖掘技术的网络舆情突发热点事件发现方法在审

专利信息
申请号: 202011055051.6 申请日: 2020-09-29
公开(公告)号: CN112199585A 公开(公告)日: 2021-01-08
发明(设计)人: 呼大永;孟庆川;董伊然;马灿;高玺艳;张哲为 申请(专利权)人: 黑龙江省网络空间研究中心;中国科学院信息工程研究所
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/335;G06F40/211;G06F40/216;G06F40/284;G06F40/295
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 司立彬
地址: 150090 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 挖掘 技术 网络 舆情 突发 热点 事件 发现 方法
【说明书】:

发明公开了一种基于数据挖掘技术的网络舆情突发热点事件发现方法,其步骤包括:1)提取当前日期T内每一条待处理的舆情消息的事件特征;2)设置多个时刻,根据各舆情消息的事件特征,统计每一类事件的消息量xTij并归一化为3)读取当前日期T之前N天的每天第i‑1时刻到第i时刻第j类事件的归一化消息量4)计算Q的第一四分数Q1ij和第三四分数Q3ij以及如果则判定第j类事件为一个热点事件;如果则判定第j类事件为非热点事件。

技术领域

本发明涉及一种基于数据挖掘技术的网络舆情突发热点事件发现方法,属于计算机数据挖掘领域中热点发现领域,涉及海量数据创新性分析,发明着重解决的问题是在海量信息中发掘突发热点事件并追踪事件的热度变化。

背景技术

近年来,随着Internet的迅速发展,网络在社会发展、人民生活中扮演着越来越重要的角色。互联网已经成为信息承载和传播的核心载体和社会舆论的放大器。网络舆情,特别是突发热点舆情有着发生范围广、传播速度快、影响大的特点。通过社交媒体数据,在突发事件发生的时候,通过挖掘与分析得到有价值的应急信息,对于及时应对网络突发的公共事件和全面掌握社情民意具有重大意义。

突发热点事件发现是一项面向新闻媒体信息流进行位置话题识别和已知话题追中的信息处理技术。当前主流的突发热点事件发现方法分为两类:一类是基于主题模型,例如PLSA、LDA等,这类方法通过迭代计算,近似描述出文档集中的每个主题,但是该类方法只考虑了单词和文档之间的从属关系,没有考虑时间信息,所以通过该类方法建模更容易得到时间无关的静态主题,很难得到时间相关的突发事件主题。第二类是基于聚类方法,包括KNN、凝聚层次聚类等方法识别突发事件。这两类方法都把重点放在文本内容的处理方面,未考虑时间因素。

发明内容

针对现有技术中存在的技术问题,本发明的目的在于提供一种综合考虑突发事件的时间特征和社交媒体消息特点的突发热点事件发现方法,时间元素是突发热点事件的重要组成部分,通过时间轴可以追踪事件的热度变化并及时有效的发现事件的发生。此外,本发明通过异常点分析算法发现热点,该方法计算速度快,仅仅通过维护一些统计量便可以实时快速计算当前时间点是否有事件的方法并追踪事件热度变化。因此,本发明的方法不但具有深远的理论价值,而且有着广阔的应用前景,可以创造较大的社会和经济效益。

本发明提出了一个基于时间序列的突发热点事件发现方法流程如图1所示,主要包含两个方面:(1)分析突发事件特征,采用分词、命名实体、国家突发公共事件总体应急预案中规定的事件类型判断文本消息是否涉及事件的发生。(2)热点分析,通过对消息统计量,结合plotbox异常点挖掘算法识别出突发事件,该算法计算速度快,能够实时判断当前时刻是否有热点事件的发生,并追踪事件发展趋势。

舆情消息都是一些非结构化的数据,需要对其进行必要的预处理并提取事件特征,包括事件的发生时间、地点、事件类型特征,其中事件类型包括自然灾害、事故灾害、公共卫生事件以及安全事件四大类,对应164小类。预处理包括:对原始文本集合进行去重、广告和低频词汇进行过滤,短文本过滤、文本分词以及事件特征提取。对于每一个句子,首先判断该句子中是否包含停用词,是否为疑问句以及是否过短等对句子进行过滤。对于一个关于事件的消息,一个句子中必须同时包含事件和地点关键词,因此通过判断一个句子中是否同时包含事件和地点关键词确定该句子是否有效。对于同时包含事件和地点的句子,由于地点有不同的维度,因此要对地点级别进行统一,另外同一种事件类型的表述方式不同,因此对事件关键词也要进行统一,将一些常用口语化的事件表述为标准的事件术语,例如“发大水”转成“洪水”等等,经过上述处理最后完成对一条消息的处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江省网络空间研究中心;中国科学院信息工程研究所,未经黑龙江省网络空间研究中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011055051.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top