[发明专利]一种利用语言模型的指代消解弱监督学习方法有效
申请号: | 202010212088.9 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111428490B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 辛欣;明坤 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06F40/247;G06N3/04;G06N3/08 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 语言 模型 指代 消解 监督 学习方法 | ||
1.一种利用语言模型的指代消解弱监督学习方法,其特征在于:包括以下步骤:
步骤1:分别对数据集中的有标注数据和无标注数据进行预处理;
其中,对无标注数据进行的预处理包括分词、词性标注以及生成词向量,对有标注数据进行的处理为词向量处理;
步骤2:基于有标注数据训练指代消解模型A,对于输入的词序列,先生成词序列对应的词向量序列,再由指代消解模型A计算出各词之间的指代关系候选分数,然后由各词之间的指代关系候选分数推断出各词的指代关系,依据推断出的各词指代关系计算出本次训练的指代消解任务损失,最后由损失进行反向传播,更新指代消解模型A中的所有参数;不断重复此步骤,得到训练好的指代消解模型A;
步骤2中,两个词之间的指代关系候选分数表示这两个词表示同一实体的概率;词的指代关系是指该词是否有先行词,以及该词若有先行词,那么具体是输入词序列中的哪个词为先行词;训练好的指代消解模型A能够独立完成指代消解,用于弱监督训练;
步骤2具体包括以下子步骤;
步骤2.1:计算指代关系候选分数;
步骤2.2:推断指代关系;通过指代关系候选分数确定词与词之间的指代关系;
步骤2.3:计算指代消解任务损失;
步骤2.4:进行反向传播计算指代消解模型A中所有参数的更新值;
步骤3:基于无标注数据,采用多头自注意力机制训练语言模型B,在训练过程中,首先对于输入的词序列,随机遮住一个词,即对该词进行掩码处理;然后通过计算各词的编码器特征和解码器特征以提取被遮住词的上下文语义、语境信息,依据上下文语义、语境信息推断出被遮住词,即掩码词;再计算掩码词预测任务的损失;由损失反向传播更新语言模型B中的所有参数,得到训练好的语言模型B;
其中,语言模型是指当句子中的某个词被遮住时,能够通过其他词的信息正确预测出被遮住词的模型;语言模型B中的参数包括编码器和解码器中参与多头自注意力机制运算的映射矩阵;
步骤3,包括以下子步骤:
步骤3.1:掩码处理;对于输入语言模型的词序列,进行掩码处理;
步骤3.2:计算词的编码器特征;对于掩码处理后的词序列,通过多头自注意力机制的编码器部分编码编码器特征;
其中,编码器特征指输入词向量后,由多头自注意力机制的编码器部分输出的特征;
步骤3.3:计算词的解码器特征mdi,该解码器特征mdi由输入词序列对应的词向量和编码器特征通过多头自注意力机制的解码器计算得到;
步骤3.4计算掩码词预测的损失:
步骤3.5:进行反向传播,计算语言模型B中所有参数的更新值;
步骤4:语言模型B的弱监督训练具体包括以下子步骤:
步骤4.1:计算语言模型B对于输入词序列中特殊词的注意力分数,在步骤3.2所述的注意力机制中模型B的具有H个单头注意力机制,其中有Hs个是特殊单头自注意力机制,其余为普通单头自注意力机制;其中Sh=[Sh11,...,Shij,...,ShKi]表示第h个特殊单头自注意力机制对于输入词序列中特殊词的注意力分数;特殊词是指执行步骤2.2后,词性被标注为名词或代词的词;K指在输入词序列中特殊词的个数,即输入词序列中包含的名词和代词的个数之和;Nh=[Nh11,...,Nhij,...,NhKi]表示第h个普通单头自注意力机制对于输入词序列中特殊词的注意力分数,i的取值范围为1到K,j的取值范围为1到i;
步骤4.2:计算指代消解模型A对于输入词序列中特殊词的指代关系候选分数,通过模型A在无标注数据上,由步骤2.1,得到L=[l11,...,lij,...,lKi],lij表示输入词序列中的第i个特殊词与第j个特殊词的候选分数,L表示模型A对于输入词序列中特殊词计算得到的指代关系候选分数序列;K指在输入词序列中特殊词的个数,即输入词序列中包含的名词和代词的个数之和;
步骤4.3:通过(1)计算语言模型B弱监督训练的损失lossB2;
步骤4.4:通过(2)计算语言模型B的训练总损失lossB:
lossB=αlossB1+(1-α)lossB2 (2)
其中,α是调节两个损失的超参数;训练总损失lossB由语言模型B的掩码词预测损失lossB1和语言模型B弱监督训练的损失lossB2按一定比例加权计算得到;
步骤4.5:进行反向传播,通过(3)计算语言模型B中所有参数的更新值:
其中,θi表示语言模型B中第i个参数;μ表示学习率根据经验选择;通过不断进行反向传播,语言模型B中的所有参数将不断发生变化,使lossB逐渐变小,最终得到训练好的具有独立完成指代消解关系计算的能力的语言模型B;步骤4.6:模型A、B交替迭代训练,具体包括以下子步骤:
步骤4.6.1:从有标注数据中随机一个抽取句子输入指代消解模型A,由步骤2计算lossA,再进行反向传播迭代,更新指代消解模型A中的所有参数;
步骤4.6.2:从无标注数据中随机抽取一个句子输入指代语言模型B,由步骤3.4计算lossB1,并由步骤4.1计算语言模型B输出的各特殊词之间的注意力分数;再由步骤4.2计算指代消解模型A对于该输入词序列输出的各特殊词之间的指代关系候选分数lij,再由步骤4.4计算lossB;最后进行反向传播迭代,更新语言模型B中的所有参数;
步骤4.6.3:不断重复步骤4.6.1与步骤4.6.2,直到指代消解模型A的损失lossAεA且语言模型B的损失lossBεB;
其中,εA和εB分别是指代消解模型A和语言模型B的训练停止界限,依据经验选取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010212088.9/1.html,转载请声明来源钻瓜专利网。