[发明专利]对训练数据集进行更新的方法和设备在审
申请号: | 202111355323.9 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114022737A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 凌悦 | 申请(专利权)人: | 胜斗士(上海)科技技术发展有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06V10/82;G06K9/62;G06T3/40;G06N3/04;G06N3/08 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 金林辉;吴鹏 |
地址: | 200120 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 数据 进行 更新 方法 设备 | ||
本申请涉及一种对训练数据集进行更新的方法,其包括:获取初始训练数据集以及未标注数据集;对训练数据进行数据增强和/或根据预设的关键信息对未标注数据进行筛选以获得第一扩充数据,其包括满足预设类别条件的类别标注信息;根据第一扩充数据和初始训练数据集,对分类模型进行训练;用训练后的分类模型预测未标注数据集中待预测数据的类别,将所预测的类别满足预设类别条件并且其数据属性满足预设属性条件的待预测数据确定为第二扩充数据,其中,待预测数据包括未标注数据集中第一扩充数据以外的未标注数据;根据第一扩充数据和/或第二扩充数据,对初始训练数据集进行更新,得到更新后的训练数据集。
技术领域
本申请涉及数据预处理,特别是涉及对训练数据集进行更新、尤其是对训练数据集中样本数不足的类别的训练数据进行扩充的方法和设备。
背景技术
近些年,代替以往的人工分类,在企业的业务流程中越来越多地使用基于算法的分类模型来对业务数据自动进行分类,以便后续由业务数据的类别所对应的业务部门或业务人员对其进行处理。在此,分类模型的参数训练得越精确,模型预测结果就越准确,分类效果也就越好。因此用于训练分类模型的训练数据十分重要。如果用于对分类模型建模或调整模型参数的训练数据过少,将无法获得确定模型参数的足够信息。
但在实践中,所能得到的用于训练分类模型的有标签训练数据(在本文中也简称为训练数据)往往数量有限,而存在大量的未标注数据,其通常为历史数据。有标签训练数据或者说训练数据是指具有指示其所对应类别的类别标注信息的数据。相应地,未标注数据是指不具有这样的类别标注信息的数据。此外,训练数据集中常见类别样本不均衡现象。类别样本不均衡现象指的是训练数据集中各类别的训练数据的样本数不近似相等。如果各类别的训练数据的数量之间相差很大,会影响分类模型的分类效果,这是因为训练数据可能不能覆盖所有待预测类别,或者某一或某些类别的训练数据的样本数不足以使分类模型将该类别分辨出来。为简单起见,下文中样本数不足的类别也被称为小类,反之则称为大类。一个训练数据集中的训练数据可能覆盖多个小类和多个大类。假如小类样本的数量极少,如仅占总体的1%,则即使小类样本被错误地全部识别为大类样本,在经验风险最小化的策略下分类器识别准确率仍能达到99%,但由于没有学习到小类样本的特征,实际分类效果就会很差。
为了处理类别样本不均衡的问题,目前已经提出了多种方法,例如过采样、欠采样、类别权重、样本权重、focal loss、人工标注等等。然而目前的方法各自都有自身的缺陷,不能在任何情况下都很好地解决类别样本不均衡问题。
因此,存在对现有的小类样本扩充方案进行改进的需求。
发明内容
为了克服上文中所提及的现有技术中存在的至少一个缺陷,本申请的实施例提出用于更新训练数据集的方法、设备及其计算机可读存储介质,以及文本数据分类方法。
根据本申请的一方面,提出一种对训练数据集进行更新的方法,该方法包括:获取初始训练数据集以及未标注数据集,初始训练数据集中的训练数据包括类别标注信息;获取第一扩充数据,该第一扩充数据包括满足预设类别条件的类别标注信息,其中,第一扩充数据通过对初始训练数据集中的训练数据进行数据增强和/或根据预设的关键信息对未标注数据集中的未标注数据进行筛选所得到;根据第一扩充数据和初始训练数据集,对分类模型进行训练,得到训练后的分类模型;用训练后的分类模型预测未标注数据集中待预测数据的类别,将所预测的类别满足预设类别条件并且其数据属性满足预设属性条件的待预测数据确定为第二扩充数据,其中,待预测数据包括未标注数据集中第一扩充数据以外的未标注数据;根据第一扩充数据和/或第二扩充数据,对初始训练数据集进行更新,得到更新后的训练数据集。
根据本申请的另一方面,提出一种分类方法,该方法包括:获取文本数据;通过目标分类模型,对文本数据进行分类,得到分类结果,其中,该目标分类模型基于由如上所述的方法所得的更新后的训练数据集进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胜斗士(上海)科技技术发展有限公司,未经胜斗士(上海)科技技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111355323.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置