[发明专利]文本分类模型的训练方法、装置、存储介质及计算机设备有效

申请号：	202010190582.X	申请日：	2020-03-18
公开（公告）号：	CN111522942B	公开（公告）日：	2023-09-22
发明（设计）人：	林连升	申请（专利权）人：	大箴（杭州）科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/279
代理公司：	北京中强智尚知识产权代理有限公司 11448	代理人：	黄耀威;贾依娇
地址：	310000 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类模型训练方法装置存储介质计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本分类模型的训练方法、装置、存储介质及计算机设备，该方法包括：对第一文本样本进行聚类，得到至少一个第一文本簇；基于从每个所述第一文本簇中分别获取的第一预设数量的所述第一文本样本，获取每个所述第一文本簇对应的文本标签；分别从每个所述第一文本簇中获取第二预设数量的所述第一文本样本作为第一训练样本；基于所述第一训练样本及其对应的文本标签建立第一训练集，训练文本分类模型。本申请通过对文本进行聚类，减少标注量的同时，提高了模板的覆盖率，大大提升了标注效率，也提升了模型效果。

技术领域

本申请涉及文本分类技术领域，尤其是涉及到一种文本分类模型的训练方法、装置、存储介质及计算机设备。

背景技术

自然语言处理的文本分类任务，需要大量的标注文本来训练分类模型。在现有技术的数据标注系统、平台或者方法中，均采取对数据抽样，再进行标注，然后再将标注数据用于训练模型。结合训练结果，再进行下一轮的标注，训练，调优。对于大规模短信分类任务，其特点是，短信的文本数量巨大，模板种类繁多且每天分布不均，若采用直接抽样的方法，主要会造成两个问题，一是模板的覆盖率低，二是落到每个类目的数据量存在偏差，这给文本标注和模型训练造成巨大的困难。此外，由于每天的短信模板存在一定差异，用固定某些天的标注数据训练的模型，无法泛化到所有未见过的短信模板。

发明内容

有鉴于此，本申请提供了一种文本分类模型的训练方法、装置、存储介质及计算机设备，通过对文本进行聚类，减少标注量的同时，提高了模板的覆盖率，大大提升了标注效率，也提升了模型效果。

根据本申请的一个方面，提供了一种文本分类模型的训练方法，所述方法包括：

对第一文本样本进行聚类，得到至少一个第一文本簇；

基于从每个所述第一文本簇中分别获取的第一预设数量的所述第一文本样本，获取每个所述第一文本簇对应的文本标签；

分别从每个所述第一文本簇中获取第二预设数量的所述第一文本样本作为第一训练样本；

基于所述第一训练样本及其对应的文本标签建立第一训练集，训练文本分类模型。

具体地，所述训练文本分类模型之后，所述方法还包括：

对第N文本样本进行聚类，得到至少一个第N文本簇，N≥2；

分别从每个所述第N文本簇中获取第三预设数量的所述第N文本样本；

利用所述文本分类模型对从所述第N文本簇中获取的所述第N文本样本分类，得到所述第N文本样本对应的预测标签，并校验所述预测标签的准确性；

在所述预测标签准确时，利用所述预测标签标注所述第N文本样本对应的所述第N文本簇。