[发明专利]一种针对粗粒度文本分类的数据动态标注方法及装置有效
申请号: | 201910568651.3 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110287324B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 顾凌云;严涵;王洪阳 | 申请(专利权)人: | 成都冰鉴信息科技有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2113;G06F18/24;G06F18/25;G06F16/35 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
地址: | 610041 四川省中国(四川)自由贸易*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 粒度 文本 分类 数据 动态 标注 方法 装置 | ||
1.一种针对粗粒度文本分类的数据动态标注方法,其特征在于,包括:
S1,按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设条数;
S2,构建文本TF-IDF词频矩阵;
S3,使用卡方分布进行特征筛选,得到训练数据集;
S4,使用机器学习算法对所述训练数据集进行训练,得到初始模型;
S5,获取测试数据集,利用所述初始模型对所述测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;
S6,获取按照标签类别分别抽取所述预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;
S7,将与各个所述数据标注标签对应的数据加入到所述训练数据集中,使用机器学习算法对所述训练数据集进行训练,得到修正模型;
S8,判断训练数据量是否满足第二预设数据量,如果不满足,返回执行S5;如果满足,执行S9;
S9,存储所述修正模型为预测模型;
其中:
所述使用机器学习算法对所述训练数据集进行训练包括:
对所述训练数据集进行数据切分,并与相应的标签集对齐,得到标签与对应训练数据的列表;
获取所述标签集中的第i个标签对应的第i份训练数据,其中i=1,2,……N,N为标签个数,N≥1且为自然数;
将所述第i份数据进行分割,得到K份数据,其中,所述K份数据中,将其中1份作为测试集,K-1份作为训练集,其中,K≥2且为自然数;
设置K个机器学习模型作为基模型;
每个所述基模型进行所述训练集上K折交叉处理,迭代K次,将每次生成的矩阵进行拼接,得到超特征矩阵;
每个所述基模型对所述测试集进行预测,得到超特征测试集;
将所述超特征矩阵作为新的训练集,将所述第i个标签作为标签进行训练,得到训练模型;
利用所述训练模型对所述超特征测试集进行预测得到第i个所述数据标注标签;
调整每个所述基模型的参数,重复执行上述步骤,确定最优模型。
2.根据权利要求1所述的方法,其特征在于,所述构建文本TF-IDF词频矩阵包括:
通过计算词频矩阵TF,其中,m表示某个词在某篇文章中出现的次数,n表示该文章的总词数;
通过计算逆文档频率,其中,a表示语料库中文档个数,b表示包含该词的文档数目;
通过TF-IDF=TF*IDF计算TF-IDF词频矩阵。
3.根据权利要求1所述的方法,其特征在于,
所述最优模型在步骤S4中为所述初始模型;
所述最优模型在步骤S7中为所述修正模型。
4.根据权利要求1所述的方法,其特征在于,所述K为5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都冰鉴信息科技有限公司,未经成都冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910568651.3/1.html,转载请声明来源钻瓜专利网。