[发明专利]用于文本分类的训练集的优化方法及装置有效
申请号: | 201910866630.X | 申请日: | 2019-09-12 |
公开(公告)号: | CN110580290B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 纪鸿旭;过群;鲁骁;孟二利 | 申请(专利权)人: | 北京小米智能科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;李志新 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 分类 训练 优化 方法 装置 | ||
1.一种用于文本分类的训练集的优化方法,其特征在于,所述方法包括:
获取用于文本分类的训练集;
在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集;
根据所述第二初始训练子集,训练文本分类模型;
通过训练后的文本分类模型,对所述训练集中的样本进行预测,以获得预测结果;
根据所述预测结果,生成标注错误样本集;
采用文本特征挖掘算法,从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本;
利用所述正确标注样本更新所述训练集;以及,
通过n-gram模型从所述标注错误样本集中提取字词,并形成字词集合;
根据所述字词集合,生成所述字词与所述字词所属类别的共现矩阵;
根据所述共现矩阵,分别计算所述字词集合中的每个字词的特征值,根据所述特征值,取排名前x位和后y位的字词作为关键字词,并构成关键字词库,其中,x和y是大于或等于1的自然数;
对所述关键字词库中的关键字词进行数据增强,并且生成新的样本;
对所述新的样本进行标注且将标注后的所述新的样本加入所述训练集中。
2.根据权利要求1所述的用于文本分类的训练集的优化方法,其特征在于,所述在所述训练集中选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行更正,获得第二初始训练子集包括:
通过随机提取函数在所述训练集中随机选取一部分样本作为第一初始训练子集,并且对所述第一初始训练子集中存在错误标注的样本进行人工更正,获得第二初始训练子集。
3.根据权利要求1所述的用于文本分类的训练集的优化方法,其特征在于,所述通过训练后的文本分类模型对所述训练集中的样本进行预测以获得预测结果包括:
根据所述训练后的文本分类模型,构建用于文本分类的分类器;
通过所述分类器对所述训练集中的样本进行预测以获得预测结果。
4.根据权利要求3所述的用于文本分类的训练集的优化方法,其特征在于,所述根据所述预测结果,生成标注错误样本集包括:
根据所述预测结果的混淆矩阵选择标注错误样本,生成标注错误样本集。
5.根据权利要求4所述的用于文本分类的训练集的优化方法,其特征在于,所述从所述标注错误样本集中选取关键标注错误样本,并对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本包括:
对所述标注错误样本集中的样本进行分词并形成词表;
确定所述词表中的每个词的特征值,根据所述特征值,取排名前k位的词作为关键词并构成关键词库,其中,k是大于或等于1的自然数;
根据所述关键词库,从所述标注错误样本集中选取含有所述关键词的关键标注错误样本;
对所述关键标注错误样本的标注进行更正,生成对应的正确标注样本。
6.根据权利要求1所述的用于文本分类的训练集的优化方法,其特征在于,所述通过n-gram模型从所述标注错误样本集中提取字词包括:
通过1-gram模型、2-gram模型和3-gram模型从所述标注错误样本集中分别提取字词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910866630.X/1.html,转载请声明来源钻瓜专利网。