[发明专利]文本处理模型训练方法、装置、计算机设备及存储介质在审

申请号：	202111480856.X	申请日：	2021-12-06
公开（公告）号：	CN114328912A	公开（公告）日：	2022-04-12
发明（设计）人：	郝彦超	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06F16/383;G06K9/62;G06N3/04;G06N3/08
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	陈婷
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理模型训练方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种文本处理模型训练方法、装置、计算机设备及存储介质，可以获取训练文本的原始文本信息；对原始文本信息进行特征提取，得到原始文本信息的原始文本特征；根据原始文本特征，确定与原始文本信息对应的目标相似文本信息；根据原始文本信息和目标相似文本信息，对文本处理模型进行训练，得到训练后文本处理模型，训练后文本处理模型用于对文本进行识别；由于本申请实施例可以确定与原始文本信息对应的目标相似文本信息，如此基于原始文本信息和目标相似文本信息对文本处理模型进行训练，可以提高得到的训练后文本处理模型的泛化性能和准确率。

技术领域

本申请涉及人工智能技术领域，具体涉及一种文本处理模型训练方法、装置、计算机设备及存储介质，该存储介质为计算机可读存储介质。

背景技术

当前，大多数文本业务场景要用到文本处理模型对文本进行处理。在对文本处理模型进行训练的过程中需要用到训练样本。训练样本中如果存在相关文本信息，可以认为训练数据中存在大量同质化的文本信息，同质化是指训练样本中存在相同或相似的文本信息。

例如，将训练数据集分为A子集和B子集，该训练数据集中的每个训练样本由4种文本信息构成，4种文本信息分别为文本信息1、文本信息2、文本信息3和文本信息4。若A子集中每个训练样本包含文本信息1和文本信息2，则称文本信息1和文本信息2为相关文本信息，可以确定A子集中存在同质化的文本信息。若B子集中的每个训练样本包含文本信息3和文本信息4，则称文本信息3和文本信息4是相关文本信息，可以确定B子集中存在同质化的文本信息。

在这种情况下，采用存在相关文本信息的训练样本对文本处理模型进行训练，会存在训练所得到的训练后文本处理模型的泛化性能较低和准确率较低的问题。

发明内容

本申请实施例提供一种文本处理模型训练方法、装置、计算机设备及存储介质，该存储介质为计算机可读存储介质，能够提高训练后文本处理模型的泛化性能和准确率。

一种文本处理模型训练方法，包括：

获取训练文本的原始文本信息；

对原始文本信息进行特征提取，得到原始文本信息的原始文本特征；

根据原始文本特征，确定与原始文本信息对应的目标相似文本信息；

根据原始文本信息和目标相似文本信息，对文本处理模型进行训练，得到训练后文本处理模型，所述训练后文本处理模型用于对文本进行识别。

相应地，本申请实施例提供一种文本处理模型训练装置，包括：

获取单元，可以用于获取训练文本的原始文本信息；

提取单元，可以用于对原始文本信息进行特征提取，得到原始文本信息的原始文本特征；

确定单元，可以用于根据原始文本特征，确定与原始文本信息对应的目标相似文本信息；