[发明专利]融合多任务和多标签学习的司法领域深度事件抽取方法在审
申请号: | 202210078832.X | 申请日: | 2022-01-24 |
公开(公告)号: | CN114580428A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 黄杨琛;王立才;郭前进;李孟书;李兴宇 | 申请(专利权)人: | 中国电子科技集团公司第十五研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06F40/211;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 高会允 |
地址: | 100083 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 任务 标签 学习 司法 领域 深度 事件 抽取 方法 | ||
本发明公开了融合多任务和多标签学习的司法领域深度事件抽取方法,能够基于BERT预训练模型与multi‑task实现触发词提取与事件分类,在增强后的数据上通过多标签分类实现事件要素提取的司法领域事件抽取。目前针对司法领域文本特点,提出一种基于预训练模型BERT的事件抽取模型,通过masked LM方法在领域数据上对BERT进行调优,以学习到更适合领域知识的特征表示;将触发词提取和事件分类任务联合,以multi‑task的形式将两个任务统一到一个损失函数中,利用任务之间的相关性促进学习性能的提升;使用事件要素的start与end标注进行学习与预测,对于多个事件要素,分别设计对应的网络层进行抽取,减少不同要素之间的相互干扰。
技术领域
本发明涉及事件抽取技术领域,具体涉及融合多任务和多标签学习的司法领域深度事件抽取方法。
背景技术
事件抽取是自然语言处理(Natural Language Processing,NLP)领域经典的信息抽取(Information Extraction,IE)任务,要求我们用人工或者自动的方法,从半结构化甚至非结构化的数据中,将与我们的目标相关的事件的重要要素识别出来。事件抽取任务中有五个比较重要的概念:事件描述(event mention)、事件类型(event type)、事件触发词(trigger)、事件要素(argument)和要素的角色(role)。事件描述指描述事件信息的短语或者句子。事件类型指事件的类型,如“盗窃事件”。事件触发词指标志某一事件发生的词语,一般是动词。事件要素指用以描述一个事件的时间、地点、人物等重要信息。事件要素角色则是事件要素在事件进行过程中的作用。从事件抽取的文本信息的角度,可以分为基于语句的事件抽取和基于文档的事件抽取。从事件抽取的模型的角度,事件抽取可以采用流水线结构模型或者联合模型。从事件抽取目标的角度,包含了基于特定schema的事件抽取和开放领域的事件抽取。近十年来,得益于图形计算单元(GPU)计算能力的快速提升,深度学习较机器学习在许多领域,如自动翻译、图像识别、自然语言处理等,取得了良好的效果。目前,在军事、金融、生物等领域已经有大量的应用实践,在传统机器学习方法的基础上大幅度提高了准确率。
目前,事件抽取领域的主要方法分为三大类:
第一类是基于模式匹配的事件抽取方法,模式匹配方法是在一些模式的指导下进行事件的识别和抽取。模式主要用于指明构成目标信息的上下文约束环境,集中体现了领域知识和语言知识的融合。抽取时输入事件文本,通过各种模式匹配算法(如正则表达式)找出符合模式约束条件的信息作为输出。
第二类是基于机器学习的事件抽取方法,通过人工提取相关特征,采用基于pipeline或者joint model的机器学习的方法识别事件,将事件类别及事件要素的识别转化成为分类问题。其中基于pipeline的方法将事件抽取任务转化为多阶段的分类问题,顺序执行多个分类器;基于joint model的方法将触发词识别和元素抽取联合学习,充分利用事件触发词和元素之间的关联关系,有效提升了模型的性能。
第三类是基于深度学习的事件抽取方法,通过词嵌入工具如word2vec、n-gram模型等得到文本对应的词嵌入信息,利用词向量嵌入信息,通过双向长短期记忆网络(Bi-LSTM)对文本的语义信息进行学习,在综合上下文内容的基础上得到特征表示,再通过条件随机场来加上约束条件,得到最后的事件抽取结果。
基于模式匹配的事件抽取方法中,由于模式主要是通过手工方法来建立的,所以这种方式费时费力,也要求用户具有较高的专业领域技能。基于模式匹配的方法在特定领域内可以取得比较好的效果,但是系统的可移植性差,从一个领域移植到另一个领域时,需要重新构建模式。而模式的构建费时费力,需要领域专家的指导。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十五研究所,未经中国电子科技集团公司第十五研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210078832.X/2.html,转载请声明来源钻瓜专利网。