[发明专利]一种基于序列生成模型的多事件检测方法有效
申请号: | 202011496007.9 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112612871B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 庄越挺;邵健;吕梦瑶;宗畅 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06N3/0442;G06N3/0455;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 生成 模型 多事 检测 方法 | ||
本发明公开了一种基于序列生成模型的多事件检测方法。为了解决现有方法对触发词抽取的过度依赖和对事件共现关系、事件类别语义信息忽略的缺陷,本发明利用序列生成模型可以生成不定长序列的特性,实现了在无需进行触发词抽取的情况下也能进行多事件检测的效果,降低了对数据集的标注要求,增强了方法的可用性。在构建序列生成模型时,使用编码器‑解码器的架构,在解码预测输出的过程中使用上一时间步的输出作为输入,因此可以学习各事件类别间的共现关系。此外,本发明同时编码事件文本语义和事件类别名称的语义信息,使得在数据量较少的情况下也能加入更多先验信息得到良好的效果。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于序列生成模型的事件检测方法。
背景技术
随着互联网技术与应用的迅速发展,自然语言文本信息的交流和共享也日益频繁和广泛。这些文本信息通常以新闻资讯,机构公告,论坛评论等非结构化文本形式呈现,常常蕴含着许多拥有潜在价值的事件信息,挖掘这些事件信息具有很强的应用价值。例如,通过金融公告可以检测引起金融市场波动的事件,从而辅助投资者做出决策;通过实时检测社会突发事件,可以为应急处理争取时间。事件检测的目标就是从这些数量庞大、更新迅速、结构复杂的非结构化文本中检测是否有事件发生并得到发生事件的类型。
目前,文本事件检测方法多数利用深度学习方法构建序列标注模型对事件文本进行事件触发词抽取,若文本包含触发词则视为有事件发生,然后通过对触发词的分类得到事件的分类。然而,现有的方法有以下缺点:
1.现有方法过度依赖触发词的抽取和分类来进行事件监测。然而在实际场景中,文本中往往没有明确的触发词或者含有多个触发词。特别地,中文文本中某些触发词的边界难以判断。这些都对事件的检测造成了干扰。此外,触发词标注难度很高,需要人力和时间的消耗,有触发词标注的数据资源很少。因此,现有方法在实际应用中难以达到良好的效果。
2.现有方法对于各个事件类型的检测往往是独立的,没有考虑到事件类型之间的共现关系,例如袭击事件往往会和伤亡事件共同发生。忽略这部分信息影响了事件检测准确率的提升。
3.现有方法大多只关注了事件文本中的信息,没有利用事件类别名称所包含的语义信息。例如,在检测“投资”事件时,没有运用“投资”这个类别名称包含的语义信息,而是简单用数字作为类别的代号,这是一种语义浪费。
针对现有方法的缺陷,本发明提出了一种新颖的基于序列生成模型的多事件检测方法。将传统的基于序列标注和触发词抽取的方法转换为基于序列生成模型的方法。利用序列生成模型可以生成不定长序列的特性,实现了在无需进行触发词抽取的情况下也能进行多事件检测的效果,降低了对数据集的标注要求,增强了方法的可用性。在构建序列生成模型时,使用编码器-解码器的架构,在解码预测输出的过程中使用上一时间步的输出作为输入,因此可以学习各事件类别间的共现关系。此外,该方法除了考虑事件文本语义外,还加入了事件类别名称的语义信息,这相当于加入更多先验信息,在数据量较少的情况下也能得到较好的效果。
发明内容
本发明提供了一种基于序列生成模型的多事件检测方法。在不需要事件触发词抽取的情况下,使用序列生成模型,同时利用事件文本和事件类别名称中的语义信息,并充分考虑事件共现关系来改善事件检测的效果。
一种基于序列生成模型的多事件检测方法,其包括以下步骤:
S1:获取事件文本语料后,对文本进行预处理,然后使用序列化文本标注方法对事件文本中的事件类别进行标注;
S2:构建基于序列生成框架的多事件检测模型;
S3:对模型进行训练和评估,并选择训练效果最好的模型作为最优模型;
S4:利用训练好的最优模型,使用集束搜索的方法进行预测,从而得到生成序列,解析生成序列得到完整的多事件检测结果。
优选地,以上各步骤可以采用如下具体实现方式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011496007.9/2.html,转载请声明来源钻瓜专利网。