[发明专利]基于自编码器融合文档信息的事件触发词抽取方法及系统有效
申请号: | 201910288771.8 | 申请日: | 2019-04-11 |
公开(公告)号: | CN110135457B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 程学旗;靳小龙;席鹏弼;郭嘉丰;赵越 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/36 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 编码器 融合 文档 信息 事件 触发 抽取 方法 系统 | ||
本发明涉及一种基于自编码器融合文档信息的事件触发词抽取方法,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建该自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档内的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi‑GRU模型进行多分类,以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。
技术领域
本发明属于互联网技术领域,具体涉及一种可用于知识图谱的事件触发词抽取方法。
背景技术
事件抽取任务旨在从非结构化的自由文本中抽取出结构化的事件信息,其中事件是由事件触发词、事件类型、事件论元和事件元素的角色组成的。触发词是能够触动事件发生且决定事件类型的最重要特征词,进而针对不同的事件类型,定义了不同的事件参与元素。因此事件抽取任务主要包括对事件触发词的抽取和对事件参与元素的识别,而触发词抽取作为其中的基础步骤,其识别性能直接影响事件抽取系统的准确性。
现有的触发词抽取方法大多以句子为单位进行句内词或词组的多分类,主要分为以下几个步骤,首先对输入的句子进行分词,接着对每一个词抽取局部的上下文特征,通常使用基于自然语言处理工具的构造特征和基于神经网络生成的表示特征,最后选取多元分类器判断当前词是否为触发词或其所属事件类别。中国国家发明“一种事件触发词识别方法及装置”(公布号:CN104598510A),以原始语料中提取的训练语料,对条件随机场模型进行训练,并利用目标条件随机场模型对待测语料进行事件触发词的识别。中国国家发明“一种事件触发词识别方法及系统”(公布号:CN104778163A),利用最大熵识别模型对所述测试样本中的事件触发词进行识别,得到识别结果。中国国家发明“一种事件触发词识别方法及装置”(公布号:CN105138520A),是通过预先建立的二元分类器,对从原始语料及其翻译语料所确定的双语特征进行候选词进行分类,以确定当前候选词是否为事件触发词。中国国家发明“一种基于特征自动学习的生物医学事件触发词识别方法”(公布号:CN105512209A),通过构建事件触发词词典和候选触发词实例,以卷积神经网络模型学习特征并进行神经网络模型训练,最终进行事件触发词分类。中国国家发明“一种基于文档级别注意力机制的事件触发词抽取方法”(公布号:CN108829801A),使用PubMed数据库语料进行词向量训练,构建样本的分布式表示方式,构造基于BiLSTM-Attention的特征表示方式,使用CRF学习、获取当前文档序列的最优序列标注结果,完成事件触发词的抽取。中国国家发明“基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法”(公布号:CN108846017A),进行Word Embedding的字级别语义特征表示,构建注意力权重的Bi-GRU字级别的句子特征编码模型,搭建基于注意力权重的Bi-GRU句子级别特征编码模型,使用分层Softmax实现端到端分类实现。
然而在一篇文档中,仅凭单个句子的上下文信息难以区分多义词的事件类型歧义,如“leave”既可以表示离开也可以表示离职,需要借助全局的语境和文档中关联的事件加以判断。因此引入篇章级别的特征进行全局上下文信息的约束是很有必要,但是传统的上下文特征并不足以表示文档的全局信息,构造特征中的依存关系不能有效分析长距离的依赖关系,表示特征中的词向量不能针对性地获取当前词所在的篇章信息。另一方面,由于事件结构繁多复杂,现有普遍使用的事件标注数据集规模很小,如通用新闻论坛领域的ACE2005数据集中仅包含599个英文文档、生物医学领域的MLEE(Multi-level EventExtraction)数据集中仅包含262个文档。在使用神经网络模型时,数据稀疏的问题很有可能导致模型抽取的触发词不全且不准的问题。有方法提出借助训练词向量的方法使用大量的未标注文本数据,引入外部的领域信息,但是词向量只关注了词的语义层面,不能有效捕捉句子层面和文档层面的上下文信息。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910288771.8/2.html,转载请声明来源钻瓜专利网。