[发明专利]指代消解模型的训练方法及装置、电子设备在审
申请号: | 202111258620.1 | 申请日: | 2021-10-27 |
公开(公告)号: | CN114091467A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 李晨;阳任科 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/274;G06F40/166;G06F16/335;G06F16/33;G06N20/00 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 吕俊秀 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 指代 消解 模型 训练 方法 装置 电子设备 | ||
本发明实施例提供了一种指代消解模型的训练方法及装置、电子设备。该方法包括:在预设语料池中筛选符合目标条件的语料;符合目标条件的语料中至少存在第一候选名词、第二候选名词以及目标名词,目标名词为语料的名词中位于最后的名词,第一候选名词与目标名词相同,第二候选名词与目标名词不同。将符合目标条件的语料中的目标名词采用预设标识进行替换,得到目标语料。根据第一候选名词以及第二候选名词,生成对应目标语料的标注信息。根据目标语料以及对应目标语料的标注信息,对指代消解模型进行训练。本发明实施例以自动化的方式构造大量用于训练指代消解模型的目标语料,避免了人工标注语料的过程,使得训练指代消解模型的整个过程省时省力。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种指代消解模型的训练方法及装置、电子设备。
背景技术
在自然语言处理领域中,需要机器对自然语言进行语义分析和语义理解,从而预测自然语言中代词所指代的名词。其中,确定代词所指代的名词的过程可以理解为指代消解。也可以简单理解,指代消解是指对语句中代词所指代的名词进行预测。例如针对语句“妈妈给小明买了一个新书包,他很喜欢”。指代消解用于预测代词“他”所指代的名词为“小明”,而非“妈妈”。
通常,为保证指代消解模型预测的准确性,需要采用大量带有标注信息的语料对其进行训练。其中,标注信息即为代词正确指代的名词和错误指代的名词。语料的数量以及标注情况,是训练指代消解模型的整个过程中极其重要的一环。
然而,在对语料进行标注时,需要准确理解语料的语义,所以目前只能采用人工的方式对语料进行标注,并且鉴于训练指代消解模型的整个过程需要大量带有标注的语料,所以目前训练指代消解模型的整个过程都是十分的费时费力。
发明内容
鉴于上述问题,本发明实施例提供一种指代消解模型的训练方法及装置、电子设备,以解决现有技术中训练指代消解模型的整个过程费时费力的问题。
在本发明实施的第一方面,提供了一种指代消解模型的训练方法,所述方法包括:
在预设语料池中筛选符合目标条件的语料;其中,符合所述目标条件的语料中至少存在第一候选名词、第二候选名词以及目标名词,所述目标名词在所述语料中位于所述第一候选名词以及所述第二候选名词之后,所述第一候选名词与所述目标名词相同,所述第二候选名词与所述目标名词不同;
将所述符合目标条件的语料中的所述目标名词采用预设标识进行替换,得到目标语料;
根据所述第一候选名词以及所述第二候选名词,生成对应所述目标语料的标注信息;
根据所述目标语料以及所述对应目标语料的标注信息,对指代消解模型进行训练。
可选地,所述在预设语料池中筛选符合目标条件的语料,包括:
基于命名实体识别确定所述预设语料池中每条语料包含的名词;
根据每条语料包含的名词,筛选至少存在所述第一候选名词、所述第二候选名词以及所述目标名词的语料。
可选地,所述根据所述第一候选名词以及所述第二候选名词,生成对应所述目标语料的标注信息,包括:
将所述第一候选名词以及所述第二候选名词组成候选名词集合;
记录所述目标名词指代所述候选名词集合中的第一候选名词的目标信息。
可选地,所述根据所述目标语料以及所述对应目标语料的标注信息,对指代消解模型进行训练,包括:
将所述目标语料输入所述指代消解模型,根据所述候选名词集合生成对应所述第一候选名词的第一语义向量、对应第二候选名词的第二语义向量以及目标语义向量,其中,所述目标语义向量为根据所述目标语料中预设标识的上下文信息确定的语义向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111258620.1/2.html,转载请声明来源钻瓜专利网。