[发明专利]数据处理方法、装置、设备及存储介质有效
申请号: | 201911149101.4 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110929532B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 袁松岭;文心杰;王晓利;伍海江 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢惠童 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 存储 介质 | ||
本申请公开了数据处理方法、装置、设备及存储介质,属于计算机技术领域。方法包括:获取待筛选数据集,待筛选数据集包括多个待筛选的源语言数据;基于目标数据筛选模型,对待筛选数据集中的各个源语言数据进行筛选,得到筛选后的源语言数据,目标数据筛选模型利用强化学习算法训练得到;将筛选后的源语言数据作为目标源语言数据,获取与目标源语言数据对应的标注语言数据,基于目标源语言数据和标注语言数据获取机器翻译模型。在此种数据处理的过程中,目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的,目标数据筛选模型的适应场景广泛,筛选后的源语言数据的质量较高,使得获取的机器翻译模型的翻译性能较好。
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种数据处理方法、装置、设备及存储介质。
背景技术
在机器翻译领域,要训练一个精确的机器翻译模型,需要足够数量的双语训练数据。双语训练数据由源语言数据和与源语言数据对应的标注语言数据组成。通常,获取双语训练数据中的标注语言数据的成本较高,因此,为了在固定成本约束下获取高质量的双语训练数据,需要先对大量的源语言数据进行筛选,然后再获取与筛选后的源语言数据对应的标注语言数据。
相关技术中,基于词频或者基于模型置信度对源语言数据进行筛选,这些筛选规则的适应场景较局限,筛选后的源语言数据的质量不佳,使得基于筛选后的源语言数据和与其对应的标注语言数据获取的机器翻译模型的翻译性能较差。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及存储介质,可用于解决相关技术中的问题。所述技术方案如下:
一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取待筛选数据集,所述待筛选数据集包括多个待筛选的源语言数据;
基于目标数据筛选模型,对所述待筛选数据集中的各个源语言数据进行筛选,得到筛选后的源语言数据,所述目标数据筛选模型利用强化学习算法训练得到;
将所述筛选后的源语言数据作为目标源语言数据,获取与所述目标源语言数据对应的标注语言数据,基于所述目标源语言数据和所述标注语言数据获取机器翻译模型。
另一方面,提供了一种数据处理装置,所述装置包括:
第一获取模块,用于获取待筛选数据集,所述待筛选数据集包括多个待筛选的源语言数据;
筛选模块,用于基于目标数据筛选模型,对所述待筛选数据集中的各个源语言数据进行筛选,得到筛选后的源语言数据,所述目标数据筛选模型利用强化学习算法训练得到;
第二获取模块,用于将所述筛选后的源语言数据作为目标源语言数据,获取与所述目标源语言数据对应的标注语言数据;
第三获取模块,用于基于所述目标源语言数据和所述标注语言数据获取机器翻译模型。
在一种可能实现方式中,所述装置还包括:
初始化模块,用于随机初始化第一训练数据集,所述第一训练数据集包括多个源语言训练数据;
第一训练模块,用于基于随机初始化的第一训练数据集,利用强化学习算法对第一数据筛选模型进行训练,得到第二数据筛选模型;
第二训练模块,用于基于所述第二数据筛选模型进行迭代训练,直至满足第一训练终止条件,得到目标数据筛选模型。
在一种可能实现方式中,所述第一训练模块,包括:
划分单元,用于将所述随机初始化的第一训练数据集划分为至少一个目标训练数据集;
获取单元,用于获取第一目标训练数据集中的各个源语言训练数据的目标特征,所述第一目标训练数据集为所述至少一个目标训练数据集中的第一个目标训练数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911149101.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工程施工用的项目管理系统
- 下一篇:一种超级电容器电极结构及增强方法