[发明专利]指代消解模型的训练方法及装置、电子设备在审
申请号: | 202111258623.5 | 申请日: | 2021-10-27 |
公开(公告)号: | CN114091468A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 李晨;阳任科 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/274;G06F40/166;G06F16/335;G06N20/00 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 吕俊秀 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 指代 消解 模型 训练 方法 装置 电子设备 | ||
本发明实施例提供了一种指代消解模型的训练方法及装置、电子设备。该方法包括:在预设语料池中筛选符合目标条件的语料;符合目标条件的语料中至少存在第一候选名词、第二候选名词以及目标名词,第一候选名词与目标名词相同,第二候选名词与目标名词不同。将符合目标条件的语料中的目标名词替换为预设标识,第一候选名词替换为第一预设名词,第二候选名词替换为第二预设名词,得到目标语料。生成对应目标语料的标注信息,根据目标语料以及对应目标语料的标注信息进行训练。本发明实施例以自动化的方式构造大量用于训练指代消解模型的目标语料,避免了人工标注语料的过程,使得训练指代消解模型的整个过程省时省力。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种指代消解模型的训练方法及装置、电子设备。
背景技术
在自然语言处理领域中,需要机器对自然语言进行语义分析和语义理解,从而预测自然语言中代词所指代的名词。其中,确定代词所指代的名词的过程可以理解为指代消解。也可以简单理解,指代消解是指对语句中代词所指代的名词进行预测。
通常,为保证指代消解模型预测的准确性,需要采用大量带有标注信息的语料对其进行训练。其中,标注信息即为代词正确指代的名词和错误指代的名词。语料的数量以及标注情况,是训练指代消解模型的整个过程中极其重要的一环。
然而,在对语料进行标注时,需要准确理解语料的语义,所以目前只能采用人工的方式对语料进行标注,并且鉴于训练指代消解模型的整个过程需要大量带有标注的语料,所以目前训练指代消解模型的整个过程都是十分的费时费力。
发明内容
鉴于上述问题,本发明实施例提供一种指代消解模型的训练方法及装置、电子设备,以解决现有技术中训练指代消解模型的整个过程费时费力的问题。
在本发明实施的第一方面,提供了一种指代消解模型的训练方法,所述方法包括:
在预设语料池中筛选符合目标条件的语料;其中,符合所述目标条件的语料中至少存在第一候选名词、第二候选名词以及目标名词,所述目标名词在所述语料中位于所述第一候选名词以及所述第二候选名词之后,所述第一候选名词与所述目标名词相同,所述第二候选名词与所述目标名词不同;
将所述符合目标条件的语料中的所述目标名词替换为预设标识,所述第一候选名词替换为第一预设名词,所述第二候选名词替换为第二预设名词,得到目标语料,其中,所述第一预设名词和所述第二预设名词为包含预设数量名词的目标词库中两个不同的名词;
根据所述第一预设名词以及所述第二预设名词,生成对应所述目标语料的标注信息;
根据所述目标语料以及所述对应目标语料的标注信息,对指代消解模型进行训练。
可选地,将所述符合目标条件的语料中的所述目标名词替换为预设标识,所述第一候选名词替换为第一预设名词,所述第二候选名词替换为第二预设名词,得到目标语料,包括:
分别针对每条符合目标条件的语料,在所述目标词库中随机选择一个名词作为第一预设名词,并再次随机选择一个与所述第一预设名词不同的名词作为第二预设名词;
分别针对每条符合目标条件的语料,,采用第一预设名词对所述第一候选名词进行替换、采用第二预设名词对所述第二候选名词进行替换以及采用预设标识对所述目标名词进行替换,生成所述目标语料。
可选地,在所述目标词库中的名词、第一候选名词和第二候选名词均为人名的情况下,所述在所述目标词库中随机选择一个名词作为第一预设名词,并再次随机选择一个与所述第一预设名词不同的名词作为第二预设名词,包括:
根据所述符合目标条件的语料所属的文学作品,确定所述第一候选名词对应的性别为第一性别,所述第二候选名词对应的性别为第二性别;
在所述目标词库的对应第一性别的名词中随机选择一个名词作为第一预设名词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111258623.5/2.html,转载请声明来源钻瓜专利网。