[发明专利]基于生成式网络抽取结构化事件的方法、装置与处理器在审
申请号: | 201911399203.1 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111339311A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 刘粉香;贠瑞峰 | 申请(专利权)人: | 智慧神州(北京)科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/289 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 霍文娟 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 网络 抽取 结构 事件 方法 装置 处理器 | ||
本申请提供了一种基于生成式网络抽取结构化事件的方法、装置、存储介质与处理器。该方法包括:从已有事件知识图谱中获取原始数据,原始数据包括事件的结构化数据和事件的原始文本;利用原始数据构建训练数据,训练数据包括序列标注标签和生成模型标签;将训练数据输入至编码‑解码架构进行训练,获取事件抽取模型;对事件抽取模型的输出进行预定处理;根据预定处理结果抽取事件。提高了事件抽取方法的准确率,解决了现有技术中结构化事件抽取的方法准确率较低的问题。
技术领域
本申请涉及知识图谱领域,具体而言,涉及一种基于生成式网络抽取结构化事件的方法、装置、存储介质与处理器。
背景技术
事件知识图谱仍处于发展阶段,目前仍然需要解决大量技术问题,其中事件抽取是知识图谱构建的重要基础,也是难点之一。事件在知识图谱中数据表现方式分为结构化数据和非结构化数据。事件的非结构化数据包含的属性一般为事件主题名称、事件时间、主体、客体等等,除了主题名称,并不要求每个属性必须有属性值,而且也可能有属性的属性(比如,主体有自己的属性)。事件的结构化数据包含的属性一般为事件类型、触发词、论元、角色;例如,句子“在Baghdad,当一个某国坦克对着Palestine酒店开火时一个摄影师死去了”,它包含两个事件,可以描述为如表1的形式。
表1
目前高度自动化的结构化事件抽取主要的技术手段是流水线作业形式:1、使用序列标注模型完成触发词和事件类型识别任务;2、将得到的一组触发词和事件类型结果与原始句子一起输入另一个序列标注模型,完成论元和角色识别任务。这种流水线形式使得两个任务之间是制约关系,导致最终事件抽取结果准确率较低,比如,任务1模型的准确率是80%,任务2模型的准确率是80%,那么整个系统的准确率就是64%。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种基于生成式网络抽取结构化事件的方法、装置、存储介质与处理器,以解决现有技术中结构化事件抽取的方法准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于生成式网络抽取结构化事件的方法,包括:从已有事件知识图谱中获取原始数据,所述原始数据包括事件的结构化数据和事件的原始文本;利用所述原始数据构建训练数据,所述训练数据包括序列标注标签和生成模型标签;将所述训练数据输入至编码-解码架构进行训练,获取事件抽取模型;对所述事件抽取模型的输出进行预定处理;根据所述预定处理结果抽取事件。
进一步地,所述事件的结构化数据包括事件类型、触发词、论元以及角色。
进一步地,所述事件抽取模型为多任务事件抽取模型,所述多任务事件抽取模型包括生成任务和序列标注任务,所述生成任务和所述序列标注任务的输入相同,所述序列标注任务用于训练所述事件类型和所述触发词的识别,所述生成任务用于输出所述事件的结构化数据的所有信息。
进一步地,利用所述原始数据构建所述序列标注标签,包括:对所述原始文本进行分词处理;根据所述分词处理后的所述原始文本,采用标记法对相应的触发词进行标记,得到所述序列标注标签。
进一步地,利用所述原始数据构建所述生成模型标签,包括:将事件的所述结构化数据转化为生成任务标签;通过编码将所述生成任务标签转化为所述生成模型标签。
进一步地,将所述训练数据输入至编码-解码架构进行训练,获取事件抽取模型,包括:将所述序列标注标签和所述生成模型标签输入至编码-解码架构进行训练,获取所述事件抽取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智慧神州(北京)科技有限公司,未经智慧神州(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911399203.1/2.html,转载请声明来源钻瓜专利网。