[发明专利]一种智能分级标注方法在审
申请号: | 202110073101.1 | 申请日: | 2021-01-20 |
公开(公告)号: | CN112685999A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 赵志航;张睿智;尹旭;翟盛龙;朱亚静 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/35;G06K9/62 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜鹏 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 分级 标注 方法 | ||
1.一种智能分级标注方法,其特征在于,包括模型训练阶段和模型预测阶段,在所述模型训练阶段先训练一级标签标注模型,然后训练每个所述的一级标签对应的二级标签;
在模型预测阶段,数据依次输入各个一级标签标注模型,满足对应模型的阈值条件时,打上所述一级标签,并将数据依次输入所述标签对应的二级标签,满足所述二级标签的阈值条件时,打上所述二级标签。
2.根据权利要求1所述的一种智能分级标注方法,其特征在于,在每个一级标签和二级标签构造训练集、验证集和测试集时,以本标签数据为正样本,本标签之外数据为负样本,正负样本数量比例为1:1。
3.根据权利要求2所述的一种智能分级标签方法,其特征在于,在单个字的粒度上以一元组、二元组和三元组为特征,构建词表和哈希映射表,将每条样本映射为对应的数字序列,作为fastText模型的输入,以标签为目标值训练模型,分别得到每个一级标签和二级标签的二分类模型。
4.根据权利要求3所述的一种智能分级标签方法,其特征在于,在模型预测阶段,对字段数据进行采样,将采样数据输入一级分类模型,满足模型阈值条件时打上标签,然后,数据依次输入一级标签对应的各个二级分类标签模型,满足对应标签阈值条件时,打上标签。
5.根据权利要求4所述的一种智能分级标签方法,其特征在于,在模型训练阶段中,一级标签分类数据集准备,以本标签数据为正样本,打标签为1,本标签之外的数据为负样本,打标签为0,正负例样本数量比例为1:1;
根据样本构建字表,得到单个字粒度上的uni-gram映射表,bi-gram和tri-gram分别做哈希映射,得到bi-gram和tri-gram的映射表;
将每条样本在字粒度上处理成uni-gram索引序列、bi-gram索引序列、tri-gram索引序列、标签,设置每条样本索引序列长度seq_len为32,长度大于32的只保留前32位,长度小于32的进行补齐;
将数据集按照8:1:1的比例划分为训练集、验证集和测试集;
所述二级标签分类数据集采用与一级标签分类数据集相同的方法进行处理。
6.根据权利要求5所述的一种智能分级标签方法,其特征在于,在模型训练阶段中使用的优化器为Adam优化器和kaiming初始化方法。
7.根据权利要求6所述的一种智能分级标签方法,其特征在于,在模型训练阶段,设置batch_size为128,每100个batch记录损失、准确率、召回率和f1值,并用验证集进行验证,并记录模型在验证集上的损失、准确率、召回率和f1值;
若经过1000个batch,准确率还没有提升,则停止训练,保存最终模型。
8.根据权利要求7所述的一种智能分级标签方法,其特征在于,在模型预测阶段数据预处理中,设置采样个数对字段数据进行采样,得到待预测样本,同模型训练阶段的数据集准备,对数据进行处理,得到模型输入数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110073101.1/1.html,转载请声明来源钻瓜专利网。