[发明专利]一种针对粗粒度文本分类的数据动态标注方法及装置有效
申请号: | 201910568651.3 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110287324B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 顾凌云;严涵;王洪阳 | 申请(专利权)人: | 成都冰鉴信息科技有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2113;G06F18/24;G06F18/25;G06F16/35 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
地址: | 610041 四川省中国(四川)自由贸易*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种针对粗粒度文本分类的数据动态标注方法及装置,其中方法包括:按照标签类别比例均衡标注数据;构建文本TF‑IDF词频矩阵;使用卡方分布进行特征筛选得到训练数据集;使用机器学习算法对训练数据集进行训练,得到初始模型;获取测试数据集,利用初始模型对测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;获取按照标签类别分别抽取预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;将与各个数据标注标签对应的数据加入到训练数据集中,使用机器学习算法对训练数据集进行训练得到修正模型;判断训练数据量是否满足第二预设数据量,不满足继续执行上述流程;满足存储修正模型为预测模型。 | ||
搜索关键词: | 一种 针对 粒度 文本 分类 数据 动态 标注 方法 装置 | ||
【主权项】:
1.一种针对粗粒度文本分类的数据动态标注方法,其特征在于,包括:S1,按照标签类别比例均衡标注数据,其中,每一种标签对应的数据满足各自的预设条数;S2,构建文本TF‑IDF词频矩阵;S3,使用卡方分布进行特征筛选,得到训练数据集;S4,使用GBDT,Xgboost(学习率为0.01),随机森林,SVM,Xgboost(学习率为0.001)等机器学习模型作为基础模型,选取小样本数据集通过网格寻优调参确定5个最优基础模型。S5,获取测试数据集,利用所述初始模型对所述测试数据集中的第一预设数据量的数据进行标注,得到预测标注数据;S6,获取按照标签类别分别抽取所述预测标注数据中的第二预设条数进行审核得到的与各个数据标注标签对应的数据;S7,将与各个所述数据标注标签对应的数据加入到所述训练数据集中,使用机器学习算法对所述训练数据集进行训练,得到修正模型;S8,判断训练数据量是否满足第二预设数据量,如果不满足,返回执行S5;如果满足,执行S9;S9,存储所述修正模型为预测模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都冰鉴信息科技有限公司,未经成都冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910568651.3/,转载请声明来源钻瓜专利网。