[发明专利]文本分类模型的训练方法、装置、存储介质及计算机设备有效
申请号: | 202010190582.X | 申请日: | 2020-03-18 |
公开(公告)号: | CN111522942B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 林连升 | 申请(专利权)人: | 大箴(杭州)科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威;贾依娇 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 装置 存储 介质 计算机 设备 | ||
本申请公开了一种文本分类模型的训练方法、装置、存储介质及计算机设备,该方法包括:对第一文本样本进行聚类,得到至少一个第一文本簇;基于从每个所述第一文本簇中分别获取的第一预设数量的所述第一文本样本,获取每个所述第一文本簇对应的文本标签;分别从每个所述第一文本簇中获取第二预设数量的所述第一文本样本作为第一训练样本;基于所述第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。本申请通过对文本进行聚类,减少标注量的同时,提高了模板的覆盖率,大大提升了标注效率,也提升了模型效果。
技术领域
本申请涉及文本分类技术领域,尤其是涉及到一种文本分类模型的训练方法、装置、存储介质及计算机设备。
背景技术
自然语言处理的文本分类任务,需要大量的标注文本来训练分类模型。在现有技术的数据标注系统、平台或者方法中,均采取对数据抽样,再进行标注,然后再将标注数据用于训练模型。结合训练结果,再进行下一轮的标注,训练,调优。对于大规模短信分类任务,其特点是,短信的文本数量巨大,模板种类繁多且每天分布不均,若采用直接抽样的方法,主要会造成两个问题,一是模板的覆盖率低,二是落到每个类目的数据量存在偏差,这给文本标注和模型训练造成巨大的困难。此外,由于每天的短信模板存在一定差异,用固定某些天的标注数据训练的模型,无法泛化到所有未见过的短信模板。
发明内容
有鉴于此,本申请提供了一种文本分类模型的训练方法、装置、存储介质及计算机设备,通过对文本进行聚类,减少标注量的同时,提高了模板的覆盖率,大大提升了标注效率,也提升了模型效果。
根据本申请的一个方面,提供了一种文本分类模型的训练方法,所述方法包括:
对第一文本样本进行聚类,得到至少一个第一文本簇;
基于从每个所述第一文本簇中分别获取的第一预设数量的所述第一文本样本,获取每个所述第一文本簇对应的文本标签;
分别从每个所述第一文本簇中获取第二预设数量的所述第一文本样本作为第一训练样本;
基于所述第一训练样本及其对应的文本标签建立第一训练集,训练文本分类模型。
具体地,所述训练文本分类模型之后,所述方法还包括:
对第N文本样本进行聚类,得到至少一个第N文本簇,N≥2;
分别从每个所述第N文本簇中获取第三预设数量的所述第N文本样本;
利用所述文本分类模型对从所述第N文本簇中获取的所述第N文本样本分类,得到所述第N文本样本对应的预测标签,并校验所述预测标签的准确性;
在所述预测标签准确时,利用所述预测标签标注所述第N文本样本对应的所述第N文本簇。
具体地,所述校验所述预测标签的准确性之后,所述方法还包括:
在所述预测标签不准确时,获取所述第N文本样本对应的实际标签;
若所述文本标签包括所述实际标签,则从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本;
基于所述第N文本样本及其对应的文本标签以及第N-1训练集建立第N训练集,训练所述文本分类模型。
具体地,所述从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本之前,所述方法还包括:
若所述文本标签包括所述实际标签,则基于相应的所述文本标签以及所述文本标签对应的文本簇,确定所述文本标签是否标注正确;
若所述文本标签标注错误,则纠正标注错误的所述文本标签;
若所述文本标签标注正确,则执行所述从相应的所述第N文本簇中获取第四预设数量的所述第N文本样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大箴(杭州)科技有限公司,未经大箴(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010190582.X/2.html,转载请声明来源钻瓜专利网。