[发明专利]数据处理方法、装置、设备及存储介质有效
申请号: | 201911149101.4 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110929532B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 袁松岭;文心杰;王晓利;伍海江 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢惠童 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取待筛选数据集,所述待筛选数据集包括多个待筛选的源语言数据;
基于目标数据筛选模型,对所述待筛选数据集中的各个源语言数据进行筛选,得到筛选后的源语言数据,所述目标数据筛选模型利用强化学习算法训练得到;
将所述筛选后的源语言数据作为目标源语言数据,获取与所述目标源语言数据对应的标注语言数据,基于所述目标源语言数据和所述标注语言数据获取机器翻译模型;
所述方法还包括:
随机初始化第一训练数据集,所述第一训练数据集包括多个源语言训练数据;将所述随机初始化的第一训练数据集划分为至少一个目标训练数据集;
获取第一目标训练数据集中的各个源语言训练数据的目标特征,所述第一目标训练数据集为所述至少一个目标训练数据集中的第一个目标训练数据集;
将所述第一目标训练数据集中的各个源语言训练数据的目标特征输入第一数据筛选模型,得到所述第一目标训练数据集中的各个源语言训练数据的筛选结果;基于所述第一目标训练数据集中的各个源语言训练数据的筛选结果,确定所述第一目标训练数据集中的各个源语言训练数据的权重值;
基于所述第一目标训练数据集中的各个源语言训练数据的目标特征、筛选结果、权重值和第二目标训练数据集中的各个源语言训练数据的目标特征,生成与所述第一目标训练数据集中的各个源语言训练数据对应的候选数据,所述第二目标训练数据集为所述至少一个目标训练数据集中的所述第一目标训练数据集的下一个目标训练数据集;
选取目标数量的候选数据,基于所述目标数量的候选数据更新所述第一数据筛选模型的参数,得到更新后的第一数据筛选模型;
基于所述更新后的第一数据筛选模型返回将所述随机初始化的第一训练数据集划分为至少一个目标训练数据集的步骤进行迭代训练,直至满足第二训练终止条件,得到第二数据筛选模型;
基于所述第二数据筛选模型返回随机初始化第一训练数据集的步骤进行迭代训练,直至满足第一训练终止条件,得到所述目标数据筛选模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标训练数据集中的各个源语言训练数据的筛选结果,确定所述第一目标训练数据集中的各个源语言训练数据的权重值,包括:
对于所述第一目标训练数据集中的任一源语言训练数据,当所述任一源语言训练数据的筛选结果为第一结果时,将第一权重值作为所述任一源语言训练数据的权重值;
当所述任一源语言训练数据的筛选结果为第二结果时,将第二权重值作为所述任一源语言训练数据的权重值。
3.根据权利要求2所述的方法,其特征在于,所述当所述任一源语言训练数据的筛选结果为第一结果时,将第一权重值作为所述任一源语言训练数据的权重值之前,所述方法还包括:
获取与每个目标源语言训练数据对应的标注语言训练数据,所述目标源语言训练数据为筛选结果为第一结果的源语言训练数据;
将各个目标源语言训练数据和与所述各个目标源语言训练数据对应的各个标注语言训练数据作为训练数据添加至第二训练数据集中;
基于所述第二训练数据集对第一翻译模型进行训练,得到第二翻译模型;
基于所述第二翻译模型和所述第一翻译模型,获取所述第一权重值。
4.根据权利要求1-3任一所述的方法,其特征在于,所述获取第一目标训练数据集中的各个源语言训练数据的目标特征,包括:
对于所述第一目标训练数据集中的任一源语言训练数据,基于所述任一源语言训练数据中的各个子数据,获取所述任一源语言训练数据的第一特征;
基于所述任一源语言训练数据和第三翻译模型,获取所述任一源语言训练数据的第二特征;
基于所述第一特征和所述第二特征,获取所述任一源语言训练数据的目标特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911149101.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工程施工用的项目管理系统
- 下一篇:一种超级电容器电极结构及增强方法