[发明专利]一种基于数据挖掘技术的网络舆情突发热点事件发现方法在审
申请号: | 202011055051.6 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112199585A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 呼大永;孟庆川;董伊然;马灿;高玺艳;张哲为 | 申请(专利权)人: | 黑龙江省网络空间研究中心;中国科学院信息工程研究所 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/335;G06F40/211;G06F40/216;G06F40/284;G06F40/295 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 150090 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 挖掘 技术 网络 舆情 突发 热点 事件 发现 方法 | ||
本发明公开了一种基于数据挖掘技术的网络舆情突发热点事件发现方法,其步骤包括:1)提取当前日期T内每一条待处理的舆情消息的事件特征;2)设置多个时刻,根据各舆情消息的事件特征,统计每一类事件的消息量xTij并归一化为3)读取当前日期T之前N天的每天第i‑1时刻到第i时刻第j类事件的归一化消息量4)计算Q的第一四分数Q1ij和第三四分数Q3ij以及如果则判定第j类事件为一个热点事件;如果则判定第j类事件为非热点事件。
技术领域
本发明涉及一种基于数据挖掘技术的网络舆情突发热点事件发现方法,属于计算机数据挖掘领域中热点发现领域,涉及海量数据创新性分析,发明着重解决的问题是在海量信息中发掘突发热点事件并追踪事件的热度变化。
背景技术
近年来,随着Internet的迅速发展,网络在社会发展、人民生活中扮演着越来越重要的角色。互联网已经成为信息承载和传播的核心载体和社会舆论的放大器。网络舆情,特别是突发热点舆情有着发生范围广、传播速度快、影响大的特点。通过社交媒体数据,在突发事件发生的时候,通过挖掘与分析得到有价值的应急信息,对于及时应对网络突发的公共事件和全面掌握社情民意具有重大意义。
突发热点事件发现是一项面向新闻媒体信息流进行位置话题识别和已知话题追中的信息处理技术。当前主流的突发热点事件发现方法分为两类:一类是基于主题模型,例如PLSA、LDA等,这类方法通过迭代计算,近似描述出文档集中的每个主题,但是该类方法只考虑了单词和文档之间的从属关系,没有考虑时间信息,所以通过该类方法建模更容易得到时间无关的静态主题,很难得到时间相关的突发事件主题。第二类是基于聚类方法,包括KNN、凝聚层次聚类等方法识别突发事件。这两类方法都把重点放在文本内容的处理方面,未考虑时间因素。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种综合考虑突发事件的时间特征和社交媒体消息特点的突发热点事件发现方法,时间元素是突发热点事件的重要组成部分,通过时间轴可以追踪事件的热度变化并及时有效的发现事件的发生。此外,本发明通过异常点分析算法发现热点,该方法计算速度快,仅仅通过维护一些统计量便可以实时快速计算当前时间点是否有事件的方法并追踪事件热度变化。因此,本发明的方法不但具有深远的理论价值,而且有着广阔的应用前景,可以创造较大的社会和经济效益。
本发明提出了一个基于时间序列的突发热点事件发现方法流程如图1所示,主要包含两个方面:(1)分析突发事件特征,采用分词、命名实体、国家突发公共事件总体应急预案中规定的事件类型判断文本消息是否涉及事件的发生。(2)热点分析,通过对消息统计量,结合plotbox异常点挖掘算法识别出突发事件,该算法计算速度快,能够实时判断当前时刻是否有热点事件的发生,并追踪事件发展趋势。
舆情消息都是一些非结构化的数据,需要对其进行必要的预处理并提取事件特征,包括事件的发生时间、地点、事件类型特征,其中事件类型包括自然灾害、事故灾害、公共卫生事件以及安全事件四大类,对应164小类。预处理包括:对原始文本集合进行去重、广告和低频词汇进行过滤,短文本过滤、文本分词以及事件特征提取。对于每一个句子,首先判断该句子中是否包含停用词,是否为疑问句以及是否过短等对句子进行过滤。对于一个关于事件的消息,一个句子中必须同时包含事件和地点关键词,因此通过判断一个句子中是否同时包含事件和地点关键词确定该句子是否有效。对于同时包含事件和地点的句子,由于地点有不同的维度,因此要对地点级别进行统一,另外同一种事件类型的表述方式不同,因此对事件关键词也要进行统一,将一些常用口语化的事件表述为标准的事件术语,例如“发大水”转成“洪水”等等,经过上述处理最后完成对一条消息的处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江省网络空间研究中心;中国科学院信息工程研究所,未经黑龙江省网络空间研究中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011055051.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种来电显示方法
- 下一篇:一种化学试剂用的防盗运输装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置