[发明专利]一种突发事件检测方法、装置、设备及存储介质有效
申请号: | 201910092796.0 | 申请日: | 2019-01-30 |
公开(公告)号: | CN111507110B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 王丽宏;贺敏;李晨;毛乾任;司靖辉 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06Q50/00 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孟德栋 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 突发事件 检测 方法 装置 设备 存储 介质 | ||
本申请涉及一种突发事件检测方法、装置、设备及存储介质,该方法包括:获取待检测事件的文本数据;提取文本数据中的关键信息,关键信息包括:关键词;根据关键信息生成触发词关系链;在预设的关键词库与触发词关系图的对应关系中,将与关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;计算触发词关系链和目标触发词关系图的匹配度;若匹配度大于预设匹配阈值,则将待检测事件确定为突发事件。该方法可以缓解现有技术中存在的突发事件检测的效率低的问题,达到了提高突发事件检测效率的技术效果。
技术领域
本申请涉及自然语言处理领域,尤其涉及一种突发事件检测方法、装置、设备及存储介质。
背景技术
随着移动互联技术的发展,微博、微信、脸书和推特等社交平台覆盖了大量的国内外用户。社交平台成为用户进行情感交流和表达观点的场所。由于用户在社交平台上发布与传播信息的门槛低、成本低,所以社会性的突发事件极易在社交平台上快速扩散,破坏社会的稳定性。
在实际应用中,现有技术依靠事件转发加速度和人工标注进行突发事件的检测,但是现有技术只有在事件扩散到一定程度的情况下,才能够检测到突发事件,在时间上具有延迟性,因此,存在突发事件检测的效率低的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种突发事件检测方法、装置、设备及存储介质。
第一方面,本申请实施例提供了一种突发事件检测方法,包括:
获取待检测事件的文本数据;
提取所述文本数据中的关键信息,所述关键信息包括:关键词;
根据所述关键信息生成触发词关系链;
在预设的关键词库与触发词关系图的对应关系中,将与所述关键信息中的关键词对应的触发词关系图确定为目标触发词关系图;
计算所述触发词关系链和所述目标触发词关系图的匹配度;
若所述匹配度大于预设匹配阈值,则将所述待检测事件确定为突发事件。
可选的,所述关键信息还包括:命名实体,所述根据所述关键信息生成触发词关系链,包括:
将所述关键信息中的关键词和命名实体组合成与所述文本数据对应的结构化文本;
根据所述结构化文本确定相互关联的至少两个事件片段;
按照所述事件片段发生的顺序,将相互关联的所述事件片段进行连接,得到事件片段链;
分别提取所述事件片段链中的每个事件片段的触发词;
按照所述事件片段发生的顺序,将与各个所述事件片段分别对应的触发词进行连接,得到所述触发词关系链。
可选的,所述计算所述触发词关系链和所述目标触发词关系图的匹配度,包括:
获取所述触发词关系链的结点总数;
将所述触发词关系链和所述目标触发词关系图进行匹配;
统计所述触发词关系链中、与所述目标触发词关系图相匹配的结点的数量,得到匹配结点数;
将所述匹配结点数除以所述结点总数,计算得到所述匹配度。
第二方面,本申请实施例提供了一种突发事件检测方法,包括:
获取多个新闻文本;
利用预设的关键词库与事件主题之间的对应关系,将多个所述新闻文本划分成多个新闻文本集合,每个所述新闻文本集合分别对应一个事件主题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910092796.0/2.html,转载请声明来源钻瓜专利网。