[发明专利]模型训练方法和装置有效

申请号：	201910493658.3	申请日：	2019-06-06
公开（公告）号：	CN110188360B	公开（公告）日：	2023-04-25
发明（设计）人：	朱丹翔	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F40/279	分类号：	G06F40/279
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提出一种模型训练方法和装置，方法包括：利用第一BERT模型对输入的训练样本进行处理，并输出多个任务的预测结果，其中，训练样本包括文字位置乱序的句子；根据多个任务的预测结果，计算模型损失值，模型损失值通过多个损失函数的损失值得出；根据计算的模型损失值，对第一BERT模型进行调整优化，以得到第二BERT模型。本发明实施例输入的训练样本由于是字词位置乱序的句子，因此在BERT模型训练时，每次都能训练句子中的所有字词，从而有效提升了模型收敛速度，减少了模型训练时间。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种模型训练方法和装置。

背景技术

在现有的BERT(Bidirectional Encoder Representations from Transformers，变换的双向编码器表示)模型训练过程中，模型的训练任务包括预测句子关系的任务和预测句子中被遮蔽词的任务。其中，预测句子中被遮蔽词的具体方式为：随机将句子中的字或者词替换成一个遮蔽替代符，并且要求模型预测出被遮蔽的词是什么，这种方式可以使模型学会根据周围字词信息推断出被遮蔽掉的字词是什么，进而获取建模字词的能力。

但是缺点也很明显，输入的句子中被遮蔽掉的字词不能太多，如果比例过高，会导致句子缺失的信息太多，无法预测出被遮蔽掉的字词。现有的BERT模型使用了15％的字词遮蔽率可以训练出不错的语义表示模型，但是同时也导致每次只有15％的字词得到训练，进而减慢了模型收敛速度。

发明内容

本发明实施例提供一种模型训练方法和装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种模型训练方法，包括：

利用第一变换双向编码器表征BERT模型对输入的训练样本进行处理，并输出多个任务的预测结果，其中，所述训练样本包括文字位置乱序的句子；

根据所述多个任务的预测结果，计算模型损失值，所述模型损失值通过多个损失函数的损失值得出；

根据计算的模型损失值，对所述第一BERT模型进行调整优化，以得到第二BERT模型。

在一种实施方式中，根据所述多个任务的预测结果，计算模型损失值，包括：

利用第一任务对应的文字位置是否乱序的预测结果，通过文字乱序损失函数计算第一损失值。

在一种实施方式中，根据所述多个任务的预测结果，计算模型损失值，还包括：

利用第二任务对应的文字位置重排序的预测结果，通过重排序损失函数计算第二损失值。

在一种实施方式中，根据所述多个任务的预测结果，计算模型损失值，还包括：