[发明专利]一种事件论元抽取方法、装置以及电子设备在审
申请号: | 202010203645.0 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111400431A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 李法远;陈玉光;潘禄;刘远圳;韩翠云;施茜;黄佳艳 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36;G06F40/289;G06F40/247 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事件 抽取 方法 装置 以及 电子设备 | ||
本申请公开了一种事件论元抽取方法、装置以及电子设备,涉及知识图谱技术领域。具体实现方案为:获取待抽取事件内容;基于已训练的事件论元抽取模型对待抽取事件内容进行论元抽取,得到待抽取事件内容的目标论元。用于对待抽取事件内容进行论元抽取的已训练的事件论元抽取模型,是基于第一训练事件样本以及第二训练事件样本训练得到,而且训练事件样本是在第一训练事件样本的基础上扩展得到,即对第一训练事件样本先进行数据增强得到新增样本,再根据新增样本得到第二训练事件样本,如此,可增加用于训练模型的训练事件样本,从而可提高通过训练事件样本训练得到的已训练的事件论元抽取模型的性能,从而提高论元抽取的准确性。
技术领域
本申请涉及计算机技术中的知识图谱技术领域,尤其涉及一种事件论元抽取方法、装置以及电子设备。
背景技术
事件论元抽取是指从事件描述中抽取事件的各个组成要素(时间、地点、参与者、事件适配的相关内容等),要素即为论元,每个论元对应一种论元角色,最终以结构化知识的形式展示给用户。
目前,用于进行事件论元抽取的模型,在训练过程中,由于事件论元的标注需要花费大量的人力成本,因此可用的事件论元标注数据较少,如此,训练得到的事件论元抽取模型的性能较差,容易导致事件论元抽取的准确性较差。
发明内容
本申请提供一种事件论元抽取方法、装置和电子设备,以解决事件论元抽取的准确性较差的问题。
第一方面,本申请一个实施例提供一种事件论元抽取方法,包括:
获取待抽取事件内容;
基于已训练的事件论元抽取模型对所述待抽取事件内容进行论元抽取,得到所述待抽取事件内容的目标论元;
其中,所述已训练的事件论元抽取模型基于训练事件样本训练得到,所述训练事件样本包括第一训练事件样本以及第二训练事件样本,所述第二训练事件样本基于新增样本确定,所述新增样本为对所述第一训练事件样本进行数据增强得到的样本。
在本申请提供的实施例的事件论元抽取方法中,用于对待抽取事件内容进行论元抽取的已训练的事件论元抽取模型,是基于第一训练事件样本以及第二训练事件样本训练得到,而且训练事件样本是在第一训练事件样本的基础上扩展得到,即对第一训练事件样本先进行数据增强得到新增样本,再根据新增样本得到第二训练事件样本,如此,可增加用于训练模型的训练事件样本,从而可提高通过训练事件样本训练得到的已训练的事件论元抽取模型的性能,从而提高论元抽取的准确性。
可选的,所述新增样本包括如下至少一项:
对所述第一训练事件样本中的第一目标分词进行同义词替换,得到的第一新增样本;
在所述第一训练事件样本中插入第二目标分词,得到的第二新增样本;
对所述第一训练事件样本中第三目标分词和第四目标分词进行位置交换,得到的第三新增样本;
根据预设删除概率,对所述第一训练事件样本中的分词进行随机删除,得到的第四新增样本;
将所述第一训练事件样本进行翻译得到第一目标样本,根据第一语言,对所述第一目标样本进行翻译得到的第五新增样本,其中,所述第一语言为所述第一训练事件样本的语言,所述第一目标样本的第二语言与所述第一语言不同。
如此,可通过五种方式中的至少一种方式获得新增样本,如此,不但可扩展用于训练的样本数量,而且可提高获取新增样本的灵活性。
可选的,所述第一新增样本通过如下方式获得:
根据预设修改比例以及所述第一训练事件样本的分词数量,确定替换数量;
从所述第一训练事件样本的分词中确定所述替换数量个第一目标分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010203645.0/2.html,转载请声明来源钻瓜专利网。