[发明专利]一种语料标注反馈方法及装置有效
申请号: | 201910138259.5 | 申请日: | 2019-02-25 |
公开(公告)号: | CN110032714B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 刘佳;崔恒斌;顾江涛 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/35 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 标注 反馈 方法 装置 | ||
1.一种语料标注反馈方法,包括:
获取多个语料,其中,每个语料具有预先标注的标注类别;
基于所述多个语料依次进行N轮类别识别模型的训练,并根据每轮训练得到的类别识别模型,预测所述多个语料中的各个语料的类别,以得到各个语料的N个预测类别;N为正整数;
基于各个语料的标注类别和N个预测类别,确定各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数;
基于各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数,确定语料标注反馈信息;所述语料标注反馈信息包括所述多个语料中的标注错误的候选语料。
2.根据权利要求1所述的方法,所述基于各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数,确定语料标注反馈信息包括:
将预测失败的次数大于第一阈值的语料,作为所述候选语料,或者;
将预测失败的次数相对于N的占比大于第二阈值的语料,作为所述候选语料;或者,
将预测正确的次数小于第三阈值的语料,作为所述候选语料;或者,
将预测正确的次数相对于N占比小于第四阈值的语料,作为所述候选语料。
3.根据权利要求1所述的方法,所述基于各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数,确定语料标注反馈信息包括:
按照各个语料对应的预测失败的次数或各个语料对应的预测正确的次数,对所述多个语料进行排序;
根据排序的结果确定所述候选语料。
4.根据权利要求3所述的方法,所述方法还包括:
对于所述多个语料中的第一语料,基于所述第一语料的N个预测类别中的第一类别的置信度,计算所述第一语料对应的预测失败时的平均置信度,其中,所述第一类别为所述第一语料的N个预测类别中与所述第一语料的标注类别不一致的类别;
所述按照各个语料对应的预测失败的次数或各个语料对应的预测正确的次数,对所述多个语料进行排序包括:
基于各个语料对应的预测失败的次数,对所述多个语料进行排序;当两个或两个以上语料对应的预测失败的次数相等时,基于所述两个或两个以上语料对应的预测失败时的平均置信度,对所述两个或两个以上语料进行排序。
5.根据权利要求4所述的方法,所述方法还包括,基于所述第一语料的N个预测类别中的第二类别的置信度,计算所述第一语料对应的预测正确时的平均置信度;其中,所述第二类别为所述第一语料的N个预测类别中与所述第一语料的标注类别一致的类别;
所述按照各个语料对应的预测失败的次数或各个语料对应的预测正确的次数,对所述多个语料进行排序,进一步包括:
当两个或两个以上语料对应的预测失败的次数相等,且预测失败时的平均置信度相等时,基于所述两个或两个以上语料对应的预测正确时的平均置信度,对所述两个或两个以上语料进行排序。
6.根据权利要求3所述的方法,所述方法还包括:
对于所述多个语料中的第一语料,基于所述第一语料的N个预测类别中的第二类别的置信度,计算所述第一语料对应的预测正确时的平均置信度,其中,所述第二类别为所述第一语料的N个预测类别中与所述第一语料的标注类别一致的类别;
所述按照各个语料对应的预测失败的次数或各个语料对应的预测正确的次数,对所述多个语料进行排序包括:
基于各个语料对应的预测正确的次数,对所述多个语料进行排序;当两个或两个以上语料对应的预测正确的次数相等时,基于所述两个或两个以上语料对应的预测正确时的平均置信度,对所述两个或两个以上语料进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910138259.5/1.html,转载请声明来源钻瓜专利网。