[发明专利]基于主动学习的语料挖掘方法、装置及电子设备在审
申请号: | 202011141662.2 | 申请日: | 2020-10-22 |
公开(公告)号: | CN113407713A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 习自;赵学敏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主动 学习 语料 挖掘 方法 装置 电子设备 | ||
1.一种基于主动学习的语料挖掘方法,其特征在于,包括:
获取未标注语料;
利用至少两个预先训练好的语料分类模型对所述未标注语料进行分类,得到至少两个所述语料分类模型输出的、针对所述未标注语料进行分类的第一分类类型和分类分数;
选取所述第一分类类型不一致、且所述分类分数符合预设条件的未标注语料作为待标注语料,对所述待标注语料进行二次分类处理,得到所述待标注语料的第二分类类型。
2.根据权利要求1所述的基于主动学习的语料挖掘方法,其特征在于,还包括:
基于预先配置的、作为训练样本的冷启动语料对至少两个分类器进行训练,得到至少两个语料分类模型。
3.根据权利要求2所述的基于主动学习的语料挖掘方法,其特征在于,所述基于预先配置的作为训练样本的冷启动语料对至少两个分类器进行训练,得到至少两个语料分类模型的步骤包括:
获取预先配置的、作为训练样本的冷启动语料;
抽取所述冷启动语料的N-gram文本特征,并对所述N-gram文本特征进行筛选生成所述冷启动语料的N-gram字典;其中,N为正整数,大于等于1;
记录所述N-gram文本特征在所述N-gram字典中对应的位置作为所述冷启动语料的特征表达;
基于所述特征表达采用可扩展机器学习库分别对至少两个分类器进行训练,得到至少两个语料分类模型。
4.根据权利要求3所述的基于主动学习的语料挖掘方法,其特征在于,所述对所述N-gram文本特征进行筛选生成所述冷启动语料的N-gram字典的步骤包括:
统计所述冷启动语料的N-gram文本特征的出现频次;
筛选出所述出现频次在预设频次范围内的N-gram文本特征,得到所述冷启动语料的N-gram字典。
5.根据权利要求3所述的基于主动学习的语料挖掘方法,其特征在于,所述抽取所述冷启动语料的N-gram文本特征的步骤包括:
基于预先添加到所述冷启动语料的开头位置和结尾位置的开始标识符号和结束标识符号,根据预设字节片段长度N逐段抽取得到所述冷启动语料的N-gram文本特征。
6.根据权利要求1所述的基于主动学习的语料挖掘方法,其特征在于,所述利用至少两个预先训练好的语料分类模型对所述未标注语料进行分类,得到至少两个所述语料分类模型输出的第一分类类型和分类分数的步骤包括:
抽取所述未标注语料的N-gram文本特征,并对所述未标注语料的N-gram文本特征进行特征向量化,得到所述未标注语料的特征向量;
根据所述未标注语料的特征向量利用至少两个所述语料分类模型对未标注语料进行分类,得到至少两个所述语料分类模型输出的、针对所述未标注语料进行分类的第一分类类型和分类分数。
7.根据权利要求1所述的基于主动学习的语料挖掘方法,其特征在于,所述选取所述第一分类类型不一致、且所述分类分数符合预设条件的未标注语料作为待标注语料的步骤包括:
对选取出来的第一分类类型不一致的未标注语料的分类分数进行相加,计算得到选取出来的所述未标注语料的总分数,依据所述总分数对选取出来的所述未标注语料进行降序排序;
根据降序排序结果,获取排序靠前的若干个所述未标注语料作为待标注语料。
8.根据权利要求1所述的基于主动学习的语料挖掘方法,其特征在于,所述对所述待标注语料进行二次分类处理,得到所述待标注语料的第二分类类型的步骤包括:
按照所述待标注语料的属性进行二次分类标注,得到新标注语料;
将二次分类标注的结果作为所述新标注语料的第二分类类型。
9.根据权利要求8所述的基于主动学习的语料挖掘方法,其特征在于,所述确定所述待标注语料的第二分类类型的步骤之后,还包括:
将所述新标注语料与所述冷启动语料作为新的训练样本,输入到至少两个分类器中,返回执行对至少两个分类器进行训练,得到至少两个语料分类模型的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的基于主动学习的语料挖掘方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011141662.2/1.html,转载请声明来源钻瓜专利网。