[发明专利]建立分类模型的方法和装置有效
申请号: | 202210191386.3 | 申请日: | 2022-03-01 |
公开(公告)号: | CN114328936B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 林昊 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建立 分类 模型 方法 装置 | ||
本说明书实施例提供了一种建立分类模型的方法及装置。其中方法包括:首先获取待分类数据样本,并获取所述待分类数据样本对应的分类标签样本;然后将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,所述训练集和所述回测集均包含多个训练样本;利用所述训练集训练分类模型;从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本;再获取对选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构成新的训练样本加入所述训练集,转至利用所述训练集训练分类模型的步骤,直至达到预设的结束条件。
技术领域
本说明书一个或多个实施例涉及人工智能技术领域,尤其涉及一种建立分类模型的方法及装置。
背景技术
随着互联网技术的不断发展,我们已经步入了人工智能时代。分类模型作为机器学习中一种重要的模型被广泛地应用于各种场景。众所周知地,分类模型的效果很大程度取决于高质量训练数据的获取。但在一些特殊场景下,获取建立分类模型的训练数据成为难点。例如,基于文本数据进行事件信息的抽取时,需要采用分类模型将文本数据映射至对应的事件类别上。但这类训练数据的获取是很难的,通常的做法是通过人工标注的方式,但为了保证模型效果,采用人工逐一对大量文本数据进行标注显然需要高昂的人力和时间成本。
发明内容
本说明书一个或多个实施例描述了一种建立分类模型的方法及装置,在保证模型效果的基础上降低人力和时间成本。
本申请提供了如下方案:
根据第一方面,提供了一种建立分类模型的方法,包括:
获取待分类数据样本,并获取所述待分类数据样本对应的分类标签样本;
将待分类数据样本及其对应的分类标签样本作为训练样本以构建训练集和回测集,所述训练集和所述回测集均包含多个训练样本;
利用所述训练集训练分类模型;
从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本;
获取对所选择的训练样本中的待分类数据样本进行人工标注之后得到的分类标签样本,将所选择的训练样本中的待分类数据样本及其人工标注的分类标签样本构成新的训练样本加入所述训练集,转至利用所述训练集训练分类模型的步骤,直至达到预设的结束条件。
根据本申请实施例中一可实现的方式,所述获取所述待分类数据样本对应的分类标签样本包括:
将所述待分类数据样本与预设的词典或语义表达模板进行匹配;
依据匹配结果确定所述待分类数据样本对应的分类标签;
基于确定的分类标签得到所述待分类数据样本对应的分类标签样本。
根据本申请实施例中一可实现的方式,从所述回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本包括:
利用训练得到的分类模型对所述回测集中的待分类数据样本进行分类,得到对待分类数据样本的分类结果;
针对所述回测集中的待分类数据样本,基于分类结果与分类标签样本的差异,确定该待分类数据样本所在的训练样本对所述分类模型的效果增益,从所述回测集中选择效果增益满足预设要求的训练样本。
根据本申请实施例中一可实现的方式,所述针对所述回测集中的待分类数据样本,基于分类结果与分类标签样本的差异,确定该待分类数据样本所在的训练样本对所述分类模型的效果增益,从所述回测集中选择效果增益满足预设要求的训练样本包括:
确定所述回测集中待分类数据样本的分类标签样本在分类结果中的置信度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210191386.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:全开站台门门槛指示灯
- 下一篇:家居设备及其信息同步方法、同步系统