[发明专利]一种语言模型的训练方法、样本数据的构建方法及装置在审

申请号：	202210435206.1	申请日：	2022-04-24
公开（公告）号：	CN115114396A	公开（公告）日：	2022-09-27
发明（设计）人：	王冠颖;汪硕芃;王丽;张聪;范长杰;胡志鹏	申请（专利权）人：	网易（杭州）网络有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289;G06K9/62
代理公司：	北京清源汇知识产权代理事务所(特殊普通合伙) 11644	代理人：	冯德魁
地址：	310052 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语言模型训练方法样本数据构建装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种语言模型的训练方法，包括：获取语句样本数据集，所述语句样本数据集中的语句样本分别包含文本标签部分，所述文本标签用于表征对应语句样本的类别；以预定的方式对所述语句样本中除所述文本标签外的其他部分进行破坏处理；将破坏处理后的语句样本输入至语言模型中，获得预测结果；基于所述预测结果和所述语句样本，确定是否满足预设的收敛条件；若不满足条件，则对语言模型进行参数调整，并基于参数调整后的语言模型进行下一轮的训练，直到满足预设的收敛条件，得到目标语言模型。本申请通过特别生成的包含有文本标签的语句样本数据集，作为在初语言模型训练中的依据，能够有效生成目标语言模型，进而实现目标类别语句样本的扩展。

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种语言模型的训练方法、一种样本数据的构建方法及装置、电子设备、存储介质。

背景技术

随着互联网技术的飞速发展，信息量以及应用信息的程度呈现几何级数的方式增长，信息对整个社会的影响逐步提高到绝对重要的地位。自然语言信息作为信息大数据中的常见类型，自然语言数据规模越来越大，复杂程度越来越高，如何高效实现自然语言信息处理成为日渐聚焦的重点问题。

语言模型作为自然语言处理过程中常用手段，可对自然语句样本进行概率建模，也可用于估计任意一个给定样本序列的概率，或者预测样本序列中词在某个位置上出现的概率，是样本语义的理解和表示建模的关键技术。在自然语句数据处理过程中，语言模型的数据集质量极大地影响模型效果，语言模型数据集的扩展是提升数据集质量的关键，如何实现大规模语言模型中语句样本数据集的有效扩展、进而提高语言模型中语句样本数据集的准确性显得至关重要。目前，在现有技术中，通常使用的自然语句数据集扩展方法主要有:随机词语替换法、核心属性词替换法、以及模型自增强方法等。然而，上述的方法均存在需要人工干预清洗、语义不通顺、无法实现样本定向扩展以及样本扩展效率低下等诸多问题，因此，获得一种能够基于样本类别进行样本扩展的语言模型，成为自然语言处理的关键。

发明内容

本发明提供一种语言模型的训练方法、样本数据的构建方法及装置、电子设备、存储介质，以解决现有语言模型无法依照语句样本类别信息进行样本扩展的问题。所述技术方案如下：

本申请提供了一种语言模型的训练方法，包括：

获取语句样本数据集，所述语句样本数据集中的语句样本分别包含文本标签部分，所述文本标签用于表征对应的语句样本的类别；

以预定的方式对所述语句样本中除所述文本标签外的其他部分进行破坏处理；

将破坏处理后的语句样本输入至语言模型中，获得预测结果；

基于所述预测结果和所述语句样本，确定是否满足预设的收敛条件；

若不满足预设的收敛条件，则对所述语言模型进行参数调整，并基于参数调整后的语言模型进行下一轮的训练，直到满足所述预设的收敛条件，得到目标语言模型。

可选的，获取初始语句样本，所述初始语句样本包含对应的符号标签，所述符号标签用于表征对应的初始语句样本的类别；

将所述符号标签转换为文本标签，并将所述文本标签嵌入至所述初始语句样本中的预设位置，得到语句样本。

可选的，所述将所述文本标签嵌入至所述初始语句样本中的预设位置，得到语句样本，包括：

将所述文本标签和预设符号进行组合，得到组合标签；