[发明专利]用于文本分类的训练集的优化方法及装置有效
申请号: | 201910866630.X | 申请日: | 2019-09-12 |
公开(公告)号: | CN110580290B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 纪鸿旭;过群;鲁骁;孟二利 | 申请(专利权)人: | 北京小米智能科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;李志新 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 分类 训练 优化 方法 装置 | ||
本公开是关于一种用于文本分类的训练集的优化方法及装置,所述方法包括:获取用于文本分类的训练集;在训练集中选取一部分样本作为第一初始训练子集,并且对第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集;根据第二初始训练子集,训练文本分类模型;通过训练后的文本分类模型对训练集中的样本进行预测以获得预测结果;根据预测结果,生成标注错误样本集;从标注错误样本集中选取关键标注错误样本,并对关键标注错误样本的标注进行更正,生成对应的正确标注样本;利用正确标注样本更新所述训练集。该方法可以基于主动学习选择错误的标注样本,交由人工重新标注后,快速迭代修正,从而改善训练集的质量。
技术领域
本公开涉及文本分类领域,尤其涉及一种用于文本分类的训练集的优化方法及装置。
背景技术
文本分类算法是自然语言处理领域中的重要算法,算法的分类效果与训练集的数据质量和样本数量有很大关系,当训练集的标注样本存在错误或者训练集的标注样本数量不够多时,算法的性能会受影响。
目前,通过人工增加标注样本的数量来扩充训练集,或者人工修正训练集中错误的标注样本,以提升训练集的质量。然而,如果在扩充训练集时随机选择样本进行标注,那么大量需要标注的样本会增加人工标注成本和模型训练的时间,而且无法发现错误的标注样本。
通常,主动学习的方法可以筛选信息量更大、更有效的一部分样本交给人工进行标注,使用这种方法扩充训练集,增加部分高质量的标注样本,从而使模型具有较好的分类效果。然而,传统的主动学习也不能挑选出训练集中的错误的标注样本。
另一方面,文本分类领域的数据增强,主要有同义词替换、随机插入/交换/删除、交叉翻译、基于上下文预测的替换等。但是这些增强方式属于通用型增强方式,只能处理数据量不足的场景,并不能修正数据噪音或者让模型学习到训练数据以外的信息,对分类模型的性能提升帮助有限。
发明内容
为克服相关技术中存在的问题,本公开提供一种用于文本分类的训练集的优化方法及装置。
根据本公开实施例的第一方面,提供一种用于文本分类的训练集的优化方法,所述方法包括:获取用于文本分类的训练集;在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集;根据所述第二初始训练子集,训练文本分类模型;通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果;根据所述预测结果,生成标注错误样本集;从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本;利用所述正确标注样本更新所述训练集。
可选的,所述在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集包括:通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行人工更正,获得第二初始训练子集。
可选的,所述通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果包括:根据所述训练后的文本分类模型,构建用于文本分类的分类器;通过所述分类器对所述训练集中的样本进行预测以获得预测结果。
可选的,所述根据所述预测结果,生成标注错误样本集包括:根据所述预测结果的混淆矩阵选择标注错误样本,生成标注错误样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910866630.X/2.html,转载请声明来源钻瓜专利网。