[发明专利]融合依存信息和预训练语言模型的事件抽取方法及系统有效
申请号: | 202010398752.3 | 申请日: | 2020-05-12 |
公开(公告)号: | CN111897908B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 靳小龙;郭嘉丰;程学旗;延浩然;官赛萍;范意兴;席鹏弼 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/36;G06F40/211;G06F40/289;G06F40/295;G06N3/04 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 依存 信息 训练 语言 模型 事件 抽取 方法 系统 | ||
本发明提出一种融合依存信息和预训练语言模型的事件抽取方法及系统,包括以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT预训练语言模型增强底层句法表达,完成中文句子的事件抽取。由此本发明对事件抽取任务下触发词抽取和论元抽取的性能均有所提高。
技术领域
本发明涉及互联网技术领域,具体的说涉及一种可用于知识图谱和信息抽取领域的中文事件抽取方法和系统。
背景技术
事件(Event)作为信息的一种结构化表示,是指涉及某些参与者的实际发生的事情。作为一类特殊的信息抽取任务,事件抽取的目标是从给定文本中抽取出预定义事件类型的实例。事件一般由触发词(Trigger)和论元(Argument)两部分组成,其中触发词是文本中最能清楚地表达事件发生的词,一般是事件所在句子的核心动词;论元与事件相关,并在事件中扮演一定角色的实体。一般来说,事件抽取一般可以分为触发词抽取和论元抽取两个任务进行,其中触发词抽取任务的目标是找出事件的触发词,并判断事件类型;论元抽取任务的目标是对于给定文本及事件触发词,判断文本中的实体是否是事件的相关论元,如果是则判断该实体在事件中担任的角色。
由于中文事件触发词一般以字为粒度进行预测,现有的中文事件抽取方法大多以句子的字、词序列作为输入单位进行抽取。主要分为几个步骤,首先对输入的句子进行分词,接着分别对词序列和字序列进行特征表示,这一阶段一般使用人工设计的独立特征或基于神经网络计算的分布式表示特征,最后融合字、词特征进行触发词抽取和论元抽取的相关分类计算。
对于事件抽取任务来说,如何更好地学习输入词序列的特征表示非常重要。然而,在前文提到的序列式的输入中,触发词和论元之间往往存在许多与事件无关的词,这些词对事件的准确抽取造成了干扰。近两年来,在英文事件抽取任务下提出了一类使用待抽取句子的依存句法树为输入的方法。这类方法将依存树转换为带自环的双向连通图,使用图卷积神经网络学习句子的依存句法特征,通过句子的依存句法树,后续触发词可以以更短的距离访问到其相关的论元,避免无关修饰词的干扰。这类方法在英文事件抽取任务上取得了良好的表现。
此外,目前已有的事件抽取方法在使用句子的依存信息赋予了句子中所有依存关系同等的权重进行学习,这样的设置对所有的依存关系一视同仁,忽略了对事件抽取任务更为重要的依存关系,比如,待抽取句子中触发词到其论元的依存关系应当被赋予更高的权重以进行特征表示。
另一方面,由于标注代价高、难度大等问题,目前事件抽取领域可用数据量依然难以满足深度神经网络的学习需求。以最常用的事件抽取数据集ACE2005为例,中、英文数据分别仅有599和633篇文档。有方法使用外部知识库或语料资源作为补充,使用弱监督的方式对训练数据进行扩充,但是这类方法局限于人工规则和假设,其扩充的数据规模虽大,对抽取模型性能的提升非常有限。
综上所述,现有技术中主要缺陷是未能很好地建模依存特征和标注数据,从而导致抽取性能不足。
发明内容
为了克服现有技术中存在的不足,本发明提供了一种融合依存信息和预训练语言模型的中文事件抽取方法,可以通过一种融合依存信息和预训练语言模型的中文事件抽取方法来实现。该方法以句子的依存句法树为输入,利用使用图卷积神经网络学习依存句法特征,并加入依存关系预测任务,通过多任务学习的方式捕捉更重要的依存关系,最后使用BERT(Bidirectional Encoder Representation from Transformers)预训练语言模型增强底层句法表达,完成中文句子的事件抽取。
针对现有技术的不足,本发明提出一种融合依存信息和预训练语言模型的事件抽取方法,其中包括:
预处理步骤,对待事件抽取文本进行分句、分词、实体提取和句子级依存分析,得到中间数据,将该中间数据中触发词转换为BIO标注格式,得到预处理语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010398752.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置