[发明专利]一种数据处理方法及装置有效
申请号: | 202111456715.4 | 申请日: | 2021-12-01 |
公开(公告)号: | CN114239590B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 李长林;蒋宁;王洪斌;吴海英;权佳成;曹磊 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F18/241 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 401120 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明公开了一种数据处理方法及装置,涉及数据增强技术领域,在增强数据样本规模的同时也确保了质量,继而避免了对原数据集造成污染。本发明的主要技术方案为:获取第一文本数据,其中,所述第一文本数据中包括敏感词;对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。本发明主要应用于对数量少的包含敏感词文本数据实现数据增强处理。
技术领域
本发明涉及数据增强技术领域,尤其涉及一种数据处理方法及装置。
背景技术
鉴于一些场景的情况,数据样本偏少或者极少,对于机器学习方法等一些非预训练语言模型,仅靠这些微薄的数据量是不能训练好一个语义模型的,那么可以考虑采用数据增强的方法扩充数据样本规模,以期望得到数据样本规模越大、质量越高越好,使得训练的模型能够有更好的泛化能力。
目前,在自然语言处理(Natural Language Processing,NLP)中文本的数据增强方法大致分为两种:一种是,对文本表示注入噪声来扩充数据量;另一种是,在文本表示前,通过同义词替换、随机插入、随机删除等方式改造原始文本以达到扩充数据量的目的。
但是,对于现有的这些数据增强方法,增强后数据样本语义是否被改变了,这是难以把握控制的,虽然增强后数据量会增大,但如果语义也被改变了,增强的数据样本质量是不高的,那么会对模型训练造成不可控的影响。
发明内容
有鉴于此,本发明提供一种数据处理方法及装置,主要目的在于利用增强处理得到更大规模的数据样本的同时,也最大限度地避免了增强数据的语义被改变,从而确保增强处理的质量,避免了对原数据集造成污染,这都是有助于对后续模型训练的带来良性影响的。
为了达到上述目的,本发明主要提供如下技术方案:
本申请第一方面提供了一种数据处理方法,该方法包括:
获取第一文本数据,其中,所述第一文本数据中包括敏感词;
对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;
若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。
本申请第二方面提供了一种数据处理装置,该装置包括:
获取单元,用于获取第一文本数据,其中,所述第一文本数据中包括敏感词;
处理单元,用于对所述第一文本数据的非敏感词数据插入字符或者对所述第一文本数据的非敏感词数据进行同义词替换,得到第二文本数据;
确定单元,用于若所述第二文本数据对应的情感极性和所述第一文本数据对应的情感极性相同,则将所述第二文本数据确定为所述第一文本数据的增强数据。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法。
本申请第四方面提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的数据处理方法。
借由上述技术方案,本发明提供的技术方案至少具有下列优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111456715.4/2.html,转载请声明来源钻瓜专利网。