[发明专利]一种基于事理图谱的事件演化分析方法及装置有效

专利信息
申请号: 202010536308.3 申请日: 2020-06-12
公开(公告)号: CN111680205B 公开(公告)日: 2023-07-04
发明(设计)人: 杨鹏;季冬;李超 申请(专利权)人: 杨鹏
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 孟红梅
地址: 211100 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 事理 图谱 事件 演化 分析 方法 装置
【说明书】:

发明公开了一种基于事理图谱的事件演化分析方法及装置。本发明首先利用现有事件特征建模技术获得文本的事件特征向量,并构建近邻查询索引;接着按时间顺序依次进行演化子图查询、新事件检测,并遵循事理图谱的合理性约束条件构建时序演化关系,形成多话题事理图谱;然后在事理图谱中,基于连贯性度量进行边界事件识别,以检测与跟踪不同话题事件的演化过程;最后将每个演化过程内所有事件节点构成的演化子图作为其脉络结构,以表征事件发展的来龙去脉。本发明能够建模事件间复杂的时序演化关系,并降低事理图谱的复杂度;利用事理图谱中节点的拓扑结构和连贯性度量,本发明能够有效提高所生成的事件演化过程的完整性和连贯性。

技术领域

本发明属于事件演化分析领域,具体涉及一种基于事理图谱的事件演化分析方法及装置。

背景技术

当前,互联网已经成为内容大数据的集散地,各种海量化、碎片化的内容不断涌现,日益呈现出异构驳杂和混乱失序等特征。对互联网中不断涌现的海量化、异构化、碎片化和混乱失序的内容大数据进行智能治理,是一项极具挑战性的课题。自动化的信息整合技术常被用来解决这一问题。传统代表性的方法是话题检测与跟踪技术(Topic Detectionand Tracking,TDT),其从文本流中检测新话题或将新事件划分至已有话题类簇。TDT根据文本的语义、话题等特征,采用分类或聚类算法将相关文本划分到同一话题类簇中,实现对文本内容的分类整合,在一定程度上减缓了碎片化问题。然而,传统TDT方法忽视了文本间的关联关系,所产生的话题类簇内部仍然存在碎片化问题,这些话题类簇通常被组织成扁平的层次结构或者简单地按照时间顺序排列成线型结构。

事件演化分析(Event Evolution Analysis,EEA)技术有助于进一步解决此类问题,其通过挖掘事件间的演化关系来理清事件的发展过程。互联网中存在大量描述事件的文本数据,如新闻、微博、裁判文书、电子医疗记录等等,特别是新闻、微博等数据的规模庞大。将事件演化分析技术应用于这些文本数据中,有助于解决互联网内容碎片化和混乱失序问题,并有助于舆情监测、新闻推荐等各类应用,具有广泛的研究和应用价值。EEA主要涉及三个子任务:事件特征建模、话题检测与跟踪(TDT)和事理图谱构建。常用的事件特征建模技术有词袋模型、主题模型、神经语言模型以及基于事件网络的表示学习方法等;TDT通常采用聚类算法,如Single-Pass、凝聚层次、近邻传播聚类等;事理图谱一般构建为树形或图形,常用的演化关系构建策略有剪枝法、最大生成树法等。给定事件特征向量,现有EEA方法通常先对事件文本进行话题聚类,再针对每个话题构建一个演化图谱,以表征该话题下事件的演化过程。然而,现有方法还存在以下问题:第一,事件间通常存在复杂的演化关系,现有演化关系构建策略容易产生一些不必要的演化关联或者丢失重要的演化连接,并且没有建模不同话题下事件间的演化关系;第二,事件一般具有多话题演化特点,如新闻事件,但现有方法通常假设每个事件只属于单个话题,这可能导致演化过程不完整和不连贯,进而影响后续的事件跟踪和新话题检测。

发明内容

发明目的:为了解决现有事件演化分析技术存在的以上问题,本发明提出一种基于事理图谱的事件演化分析方法及装置,降低事理图谱复杂度的同时保留事件间多话题演化关系,有效提高所生成的事件演化过程的完整性和连贯性。

技术方案:为实现上述发明目的,本发明所述的一种基于事理图谱的事件演化分析方法,包括如下步骤:

(1)将描述事件的文本转换为特征向量,并构建近邻查询索引;

(2)基于所述近邻查询索引,按照时间顺序依次进行演化子图查询、新事件检测,并遵循事理图谱的合理性约束条件构建新事件与旧事件的演化关系,最后将新事件及其演化关系更新至多话题事理图谱(Multi-Topic Event Evolution Graph,MTEEG);

(3)基于所述多话题事理图谱和连贯性度量,将演化过程检测与跟踪建模为事理图谱中的边界事件识别;

(4)基于所述多话题事理图谱和生成的演化过程,将每个演化过程内部所有事件节点构成的演化子图作为其脉络结构。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨鹏,未经杨鹏许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010536308.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top