[发明专利]融合句法信息的无触发词事件检测方法有效
申请号: | 202110451650.8 | 申请日: | 2021-04-26 |
公开(公告)号: | CN113239142B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 张亚飞;汪翠;郭军军;高盛祥;余正涛 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/30;G06N3/04 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 句法 信息 触发 事件 检测 方法 | ||
本发明涉及融合句法信息的无触发词事件检测方法,属于自然语言处理技术领域。本发明首先获取预处理语料的句法依存信息以及进行BPE编码获取子词单元;将基于BPE子词单元的句子转为ID之后,再通过随机初始化获取句子中每个子词单元的向量表示;根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置,然后将每个单词映射为其父词的中间位置表示;采用transformer作为编码器,将句法信息与文本的语义信息进行融合;最后通过类型感知器获取局部的触发词特征,再将局部的触发词特征与全局的语义表征进行联合,来完成事件检测任务。本发明的检测方法更简便有效。
技术领域
本发明涉及融合句法信息的无触发词事件检测方法,属于自然语言处理技术领域。
背景技术
事件检测是从非结构化的文本中识别出事件信息并对其进行分类。随着信息的快速增长,相关新闻报道也随之增多,检测新闻中所报道的相关事件,有助于准确、快速地把握热点新闻的事态动态,并做出有效的应对措施。
大多数现有的事件检测模型需要带标注的事件触发词和事件类型进行训练。这些方法根据输入的不同,可以分为基于语义表示的方法和基于句法依存表示的方法。其中,基于语义表示的方法只使用给定的句子作为模型的输入,在长距离依赖方面存在着低效率的问题。基于句法依存表示的方法通过在模型中融入句法信息能够准确定位与触发词最相关的信息,以及在单个句子中存在多个事件时,增强事件之间的信息流动性。现有的基于句法依存表示的模型通常采用邻接矩阵来表示原始的句法依赖关系,但邻接矩阵表示范围有限,只能捕获当前节点与相邻节点的关系。同时,邻接矩阵需要GCN网络对其进行编码以获取句法信息。但是,利用GCN编码会引入额外的训练参数,增加了模型的复杂度。此外,这些方法对触发词的标注会耗费大量的人力工程。
针对以上问题,提出了通过在模型源端以一种无参数的方式将句法依存树中依赖父词信息融入到依赖子词的单词嵌入使模型在编码源句子时关注到每个单词的父级依赖项及其上下文,而不需要采用GCN网络进行编码;以及采用基于多头注意力机制的类型感知器对句子中隐藏的触发词进行建模,以实现无触发词的事件检测。
发明内容
本发明提供了融合句法信息的无触发词事件检测方法,用于解决目前事件检测模型依赖于GCN网络对句法信息编码增加模型复杂度以及对触发词标注费时费力的问题。
本发明的技术方案是:融合句法信息的无触发词事件检测方法,所述融合句法信息的无触发词事件检测方法的具体步骤如下:
Step1、本发明语料收集是在ACE2005数据集上进行,并对ACE数据集进行了预处理;
Step2、获取预处理语料的句法依存信息以及进行BPE编码获取子词单元,并分配训练语料、测试语料和验证语料;
Step3、将基于BPE子词单元的句子转为ID之后,再通过随机初始化获取句子中每个子词单元的向量表示;
Steps4、根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置,然后将每个单词映射为其父词的中间位置表示。对新闻事件句进行BPE编码能获取基于BPE子词单元的新闻事件句;
Step5、采用基于transformer的语义表示层作为编码器,将句法信息与文本的语义信息进行融合,以编码获取句子的上下文语义表征。
Step6、最后通过类型感知器获取局部的触发词特征,再将局部的触发词特征与全局的语义表征进行联合,来完成事件检测任务。
作为本发明的优选方案,所述步骤Step1具体步骤为:
Step1.1、本发明的语料是在ACE2005数据集上进行的,ACE2005语料库包括8种事件类型,33种事件子类型。将33种事件子类型视为33个独立的事件类型,而忽略它们之间的层次结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110451650.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置