[发明专利]实时识别突发事件微博数据流的检测系统在审
申请号: | 202011566168.0 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112597309A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 庄旭;尹可鑫;甘翼;袁鑫;丛迅超;李贵 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/335;G06F16/31;G06F40/295;G06Q50/00 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时 识别 突发事件 数据流 检测 系统 | ||
本发明公开的一种实时识别突发事件微博数据流的检测系统,无需关于事件的任何先验知识,快速准确检测和识别突发事件。本发明通过下述技术方案实现:利用爬虫工具实时爬取本文数据;实体抽取模块抽取多种类型的命名实体,采用趋势识别模块获取关于不同地域的热词列表;实体过滤模块滤除不具有热度的实体;相似度计算模块建立窗口内的共生矩阵,计算实体相似度,构建实体关系图;相似度过滤模块滤除实体关系图中数值较小的边;实体聚类模块对实体关系图使用社区发现算法得到相应的聚类集合;聚类链接模块对事件窗口内的事件进行持续跟踪;聚类定级模块对经过聚类链接的聚类结果依据其所包含的热词数目进行定级,数据存储模块将存储聚类定级的信息。
技术领域
本发明属于突发事件检测与识别技术领域,特别是涉及一种实时识别突发事件微博数 据流的检测系统。
背景技术
随着互联网技术的飞速发展,社交网络服务、新闻、论坛、微博,以及智能手机应用为载体的社交平台的快速发展,一些新兴的互联网服务已经成为人们传播以及获取信息的 重要平台。尤其是近几年来,微博的发展正异军突起,并且凭借其实时性和便捷性受到广大 用户的喜爱。人们能够在第一时间布和获取关于“真实世界”某一突发事件的相关信息。例 如,新浪微博中国卫健委官方认证账号已成为许多中国人了解新冠肺炎实时疫情状态的首要 途径。
近年来,利用Twitter、Facebook、新浪微博等互联网技术提供的公开数据检测和识 别真实世界的突发事件受到业界和学术界的持续关注。通过这些具有高度互动性的社交平台, 人们能够对“真实世界”的突发事件做出实时反应,可以作为社会热点事件的有效指示器。 理解事件发生时在社交媒体上具备什么样的发生和发展过程有助于地方政府和相关组织机构 辅助决策和快速行动。
从社交平台所获取的数据属于流式数据,流式数据的特点是快速、大量、无序,并且要求快速的响应。并且这些信息资源具有信息异质、异构、分散、重复现象严重的特点,缺少统一的形式化表达,形成各种各样的“信息孤岛”,很难对信息资源进行整合和利用。如何满足流式数据的处理需求也成为当前研究的一个热点课题。流式数据处理系统中常常要 提取出事件,进而针对将来发生在流式数据上的事件做预测分析处理和对事件和主题的表达, 以方便有效地获得想要了解的问题,满足相关的应用需求。
使用流式数据自动检测和分类事件,对于需要作出相应反应的公共安全组织,卫生 防疫机构等,都具有很高的参考价值。基于社交平台数据流的事件的检测与识别面临许多挑 战,仍处于探索阶段。首先,社交平台通常会对在线发送的帖子的长度作出限制,这意味着 只有少量的文本可以用于分析。其次,在社交平台数据流中还常常使用非正式、不规则和缩 写的词。最后,社交平台也常常存在着广告、色情、病毒和网络钓鱼等恶意内容。
本发明主要尝试如何在实时情况下基于微博数据流对突发事件进行检测与识别。对 于事件检测与识别,具体包括事件演化演变等。通过历史事件信息实现对事件的持续追踪, 借此来探究事件的演化和演变。目前,尽管在实时事件检测与识别等方面存在不少研究成果 和一些有效的解决方案,但这些突发事件识别方法大多仅实现了对全球事件或区域性事件 (如国家)的检测与识别(例如大规模自然灾害、武装冲突等),并未对小范围的事件(如 局部疫情,森林火灾等)进行检测与识别。除此之外,一些方法多需要人为设定事件数目, 事件种类等信息,这往往需要大料的先验知识和人工标注数据。而本发明实现的方法无需任 何先验知识,也不需要人工标注,即可生成关于突发事件的词云描述。
发明内容
为了解决上述问题,本发明针对现有大规模微博消息流研究的不足之处和微博事件 流数据结构及内容形式的复杂性,提供一种无需关于事件的任何先验知识,即可快速且准确 的检测和识别突发事件微博数据流的检测系统。
为达到上述目的,本发明采用的技术方案是:一种实时识别突发事件微博数据流的 检测系统,包括:依次串联的实体抽取模块、旁接了趋势识别模块的实体过滤模块,相似度 计算模块、相似度过滤模块、聚类链接模块、聚类定级模块和数据存储模块,构建一个从原 始微博数据流到事件检测、识别和存储的全流程系统,其特征在于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566168.0/2.html,转载请声明来源钻瓜专利网。