[发明专利]数据处理方法、装置、设备及存储介质有效

申请号：	201911149101.4	申请日：	2019-11-21
公开（公告）号：	CN110929532B	公开（公告）日：	2023-03-21
发明（设计）人：	袁松岭;文心杰;王晓利;伍海江	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/58	分类号：	G06F40/58
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	邢惠童
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了数据处理方法、装置、设备及存储介质，属于计算机技术领域。方法包括：获取待筛选数据集，待筛选数据集包括多个待筛选的源语言数据；基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，得到筛选后的源语言数据，目标数据筛选模型利用强化学习算法训练得到；将筛选后的源语言数据作为目标源语言数据，获取与目标源语言数据对应的标注语言数据，基于目标源语言数据和标注语言数据获取机器翻译模型。在此种数据处理的过程中，目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的，目标数据筛选模型的适应场景广泛，筛选后的源语言数据的质量较高，使得获取的机器翻译模型的翻译性能较好。

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种数据处理方法、装置、设备及存储介质。

背景技术

在机器翻译领域，要训练一个精确的机器翻译模型，需要足够数量的双语训练数据。双语训练数据由源语言数据和与源语言数据对应的标注语言数据组成。通常，获取双语训练数据中的标注语言数据的成本较高，因此，为了在固定成本约束下获取高质量的双语训练数据，需要先对大量的源语言数据进行筛选，然后再获取与筛选后的源语言数据对应的标注语言数据。

相关技术中，基于词频或者基于模型置信度对源语言数据进行筛选，这些筛选规则的适应场景较局限，筛选后的源语言数据的质量不佳，使得基于筛选后的源语言数据和与其对应的标注语言数据获取的机器翻译模型的翻译性能较差。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备及存储介质，可用于解决相关技术中的问题。所述技术方案如下：

一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取待筛选数据集，所述待筛选数据集包括多个待筛选的源语言数据；

基于目标数据筛选模型，对所述待筛选数据集中的各个源语言数据进行筛选，得到筛选后的源语言数据，所述目标数据筛选模型利用强化学习算法训练得到；

将所述筛选后的源语言数据作为目标源语言数据，获取与所述目标源语言数据对应的标注语言数据，基于所述目标源语言数据和所述标注语言数据获取机器翻译模型。

另一方面，提供了一种数据处理装置，所述装置包括：

第一获取模块，用于获取待筛选数据集，所述待筛选数据集包括多个待筛选的源语言数据；

筛选模块，用于基于目标数据筛选模型，对所述待筛选数据集中的各个源语言数据进行筛选，得到筛选后的源语言数据，所述目标数据筛选模型利用强化学习算法训练得到；

第二获取模块，用于将所述筛选后的源语言数据作为目标源语言数据，获取与所述目标源语言数据对应的标注语言数据；

第三获取模块，用于基于所述目标源语言数据和所述标注语言数据获取机器翻译模型。