[发明专利]一种基于深度学习的端到端篇章事件抽取方法及系统在审
申请号: | 202210125508.9 | 申请日: | 2022-02-10 |
公开(公告)号: | CN114462386A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 高小童;吴施楷;杜红林 | 申请(专利权)人: | 成都傅立叶电子科技有限公司;深圳市特发信息股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/279;G06F16/35;G06F16/33;G06K9/62 |
代理公司: | 成都诚中致达专利代理有限公司 51280 | 代理人: | 杨春 |
地址: | 610045 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 端到端 篇章 事件 抽取 方法 系统 | ||
一种基于深度学习的端到端篇章事件抽取方法及系统,该方法包括:候选实体识别、文档级编码、候选实体关系编码以及事件解码,本发明提出的端到端篇章事件抽取技术,能有效的解决篇章文档中事件要素分散的问题,同时能够灵活并行的进行多事件预测,采用注意力机制进行候选词嵌入,使用[CLS]句头标识的词嵌入作为句子嵌入,较好的保存了词嵌入与句子嵌入的语义表征,使得最终的事件抽取性能得以提高。
技术领域
本发明涉及计算机数据处理技术中自然语言处理领域,尤其涉及一种基于深度学习的端到端篇章事件抽取方法及系统。
背景技术
随着现代信息技术的不断发展,各行各业积累了大量的信息数据,世界已经进入大数据时代。从海量的数据中实时准确的获取有用的信息在现实中具有非常重要的意义。事件抽取旨在从无结构化文本中抽取出结构化的事件,在商业、军事等领域的情报工作中应用非常广泛,事件抽取技术使得从海量数据中自动提取结构化事件信息成为可能。从纯文本中抽取出其中提及的事件及其要素面临两个具体的挑战,一是事件要素分散,构成一个事件的要素分散在多个句子中;二是多事件,一篇文档中可能提及多个事件。大量先前的研究关注的是句子层面的事件抽取(事件要素均存在于一个句子中),未解决篇章事件抽取的两个挑战。Shun Zheng等人在文献Doc2EDAG:An End-to-End Document-levelFramework for Chinese Financial Event Extraction中,以及Hang Yang等人在文献Document-level Event Extraction via Parallel Prediction Networks.Proceedingsof the 59th Annual Meeting of the Association for Computational Linguisticsand the 11th International Joint Conference on Natural Language Processing中,均尝试进行篇章事件的抽取,前者的事件采用路径扩展的方式进行解码,无法并行的进行事件抽取,后者采用并行多事件解码器,需要预先指定待抽取事件的数量,容易造成事件丢失和计算资源浪费等问题,同时目前研究的篇章事件抽取方法性能较低,F1值均低于80%,无法达到商用的程度。
发明内容
本发明提供了一种基于深度学习的端到端篇章事件抽取方法及系统,以解决上述现有技术的不足,通过端到端的深度学习模型,对纯文本的篇章语义及其中提及的事件要素进行特征提取与编码,采用事件要素关系表及事件树进行解码,以解决篇章事件抽取中事件要素分散与多事件的问题,并提高篇章事件抽取的性能,具有较强的实用性。
为了实现本发明的目的,拟采用以下技术:
提供了一种基于深度学习的端到端篇章事件抽取方法,包括:
S10,候选实体识别:获取文档数据,对所述文档中的每个句子进行编码,并识别得到多个候选实体的词嵌入张量表征;
S20,文档级编码:
S21,由于一个候选实体具有多个词嵌入张量,因此采用Attention机制将同一个候选实体的多个词嵌入张量合并为一个嵌入张量,形成该候选实体的嵌入张量表征,且共有多个词嵌入张量并对应有多个候选实体;
S22,对每个所得候选实体嵌入张量添加事件角色信息,并形成多个具备事件角色信息的候选实体张量表征;
S23,将所有具备事件角色信息的候选实体表征与添加了位置编码信息的句子表征送入第二Transformer模型,并进行文档级特征提取,以形成文档级感知的候选实体表征和句子表征;
S30,候选实体关系编码:采用改进的Attention机制对候选实体表征张量进行编码,并计算出任意两个候选实体是否具有关系,并生成候选实体关系表,候选实体关系表用以描述任意两个候选实体是否出现在同一事件中,若在同一事件中出现,则表示两个候选实体有关,否则无关;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都傅立叶电子科技有限公司;深圳市特发信息股份有限公司,未经成都傅立叶电子科技有限公司;深圳市特发信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210125508.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢琴生产用木料切割机
- 下一篇:神经刺激器及神经刺激系统