[发明专利]用于文本分类的数据增强方法、装置及电子设备在审

专利信息
申请号: 202111409582.5 申请日: 2021-11-25
公开(公告)号: CN113934851A 公开(公告)日: 2022-01-14
发明(设计)人: 崔昆俞;王艳飞;万周斌;胡碧峰;胡茂海 申请(专利权)人: 和美(深圳)信息技术股份有限公司
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 北京锺维联合知识产权代理有限公司 11579 代理人: 安娜
地址: 518040 广东省深圳市福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 文本 分类 数据 增强 方法 装置 电子设备
【说明书】:

本申请涉及一种用于文本分类的数据增强方法、装置及电子设备,提升了文本数据的增强效果,在处理事件与文本数据增强效果上达到较好的平衡性,该方法包括:获取用于文本分类的训练数据集;利用文本分类模型确定训练数据集中每个样本对应的预测类别标签;基于每个样本对应的真实类别标签和预测类别标签,获得表征文本分类模型分类准确度的混淆矩阵;基于混淆矩阵,确定每种类别标签对应的增强概率;针对训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;用增强后的样本替换训练数据集对应的样本,以获得增强后的训练数据集。

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种用于文本分类的数据增强方法、装置及电子设备。

背景技术

在解决自然语言处理方面的各类任务需求时,对原始文本进行数据增强已被证实是有效的,而多种数据增强方法的组合策略,能够进一步提升模型的性能。在对数据进行增强时,普遍的做法是对所有文本数据无差别地应用某种增强方法或者某种组合增强策略,而增强方法中使用的参数通常是根据人为经验指定的,或者经过不断重复训练模型反向迭代得到,例如组合增强策略中选择某增强方法的概率。但是,人为经验指定缺乏合理性的指导依据,不够理性,而不断重复训练模型寻找最优参数这种做法,随着参数数量的提升,搜索寻优空间扩增,计算成本也随之增大,很难平衡计算时间与文本数据增强效果。

发明内容

本申请实施例提供一种用于文本分类的数据增强方法、装置、电子设备及存储介质,提升了文本数据的增强效果,在处理事件与文本数据增强效果上达到较好的平衡性。

第一方面,本申请一实施例提供了一种用于文本分类的数据增强方法,包括:

获取用于文本分类的训练数据集,所述训练数据集包括每个样本对应的真实类别标签;

利用文本分类模型确定所述训练数据集中每个样本对应的预测类别标签;

基于每个样本对应的真实类别标签和预测类别标签,获得表征所述文本分类模型分类准确度的混淆矩阵;

基于所述混淆矩阵,确定每种类别标签对应的增强概率;

针对所述训练数据集中的每种类别标签,按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,并对每个待增强样本进行相应的数据增强处理;

用增强后的样本替换所述训练数据集对应的样本,以获得增强后的训练数据集。

可选地,所述混淆矩阵包括每种真实类别标签下的样本被预测为各种类别标签的样本数量,所述基于所述混淆矩阵,确定每种类别标签对应的增强概率,包括:

根据如下公式确定每种类别标签对应的增强概率:

Pi=1-Si

其中,Pi表示第i种类别标签Li对应的增强概率,e为自然常数,表示真实类别标签为Li的样本中预测类别标签为Li的样本的数量占比,表示真实类别标签为Li的样本中预测类别标签为Lj的样本的数量占比,J为训练数据集包含的类别标签的数量。

可选地,所述按照该种类别标签所对应的增强概率,从真实类别标签为该种类别标签的样本中确定出待增强样本,包括:

对真实类别标签为该种类别标签的每个样本,按照该种类别标签所对应的增强概率,确定该样本是否为待增强样本;或者,

从真实类别标签为该种类别标签的样本中随机选出m个样本,作为待增强样本,其中,m=P×n,P表示该种类别标签所对应的增强概率,n表示所述训练数据集中真实类别标签为该种类别标签的样本的总数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于和美(深圳)信息技术股份有限公司,未经和美(深圳)信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111409582.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top