[发明专利]数据处理方法和装置、电子设备以及计算机可读存储介质在审
申请号: | 202010681467.2 | 申请日: | 2020-07-15 |
公开(公告)号: | CN113947093A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 陆军;骆卫华;赵宇;施杨斌 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/49 |
代理公司: | 北京市惠诚律师事务所 11353 | 代理人: | 刘子敬 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 以及 计算机 可读 存储 介质 | ||
本申请公开了一种数据处理方法和装置、电子设备以及计算机可读存储介质。该方法包括:根据多语言单语和特定领域的源语言单语获得正向伪语料;根据多语言单语和所述正向伪语料获得所述特定领域的目标语言单语;根据所述特定领域的目标语言单语获得反向伪语料;根据所述正向伪语料和所述反向伪语料得到用于翻译的双语数据。本申请实施例省去了人工挑选正向伪语料和反向伪语料尤其是挑选用于生成正向伪语料和反向伪语料的基础单语语料的工作,大大提高了自动化生成用于翻译的双语数据的效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法和装置、电子设备以及计算机可读存储介质。
背景技术
在机器翻译领域,好的机器模型依赖于各种类型的高质量的训练数据,包括:双语语料数据、单语语料数据、伪语料数据、以及针对特定领域的单语语料数据和双语语料数据等等。
现有技术中,从多种来源获取到各种类型的相关语料数据后,由于这些语料数据的质量参差不齐,并且也不具有很高的成对的匹配率,因此无法不能直接用于模型训练,而是需要人工对这些数据进行处理,例如筛选、分类之后,才能够根据分类结果,将不同类型的数据将处理后的数据应用于模型训练的不同阶段。这种方式比较费时费力,使得效率很低且人工成本较高。
发明内容
本申请实施例提供一种数据处理方法和装置、电子设备以及计算机可读存储介质,以解决现有技术中依赖于人工筛选双语语料费事费力的缺陷。
为达到上述目的,本申请实施例提供了一种数据处理方法,包括:
根据多语言单语和特定领域的源语言单语获得正向伪语料;
根据多语言单语和所述正向伪语料获得所述特定领域的目标语言单语;
根据所述特定领域的目标语言单语获得反向伪语料;
根据所述正向伪语料和所述反向伪语料得到用于翻译的双语数据。
本申请实施例还提供了一种数据处理装置,其中,包括:
第一获取模块,用于根据多语言单语和特定领域的源语言单语获得正向伪语料;
第二获取模块,用于根据多语言单语和所述正向伪语料获得所述特定领域的目标语言单语;
第三获取模块,用于根据所述特定领域的目标语言单语获得反向伪语料;
第四获取模块,用于根据所述正向伪语料和所述反向伪语料得到用于翻译的双语数据。
本申请实施例还提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,所述程序运行时执行本申请实施例提供的数据处理方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有可被处理器执行的计算机程序,其中,该程序被处理器执行时实现如本申请实施例提供的数据处理方法。
本申请的数据处理方法和装置、电子设备以及计算机可读存储介质,通过根据多语言单语与特定领域的源语言单语来生成正向伪语料,并且使用这样生成的正向伪语料和多语言单语来进一步获取该特定领域的目标语言单语,并使用其生成反向伪语料,从而能够根据正向伪语料和反向伪语料获得用于翻译的双语数据。因此,利用本申请的方案省去了人工挑选正向伪语料和反向伪语料尤其是挑选用于生成正向伪语料和反向伪语料的基础单语语料的工作,大大提高了自动化生成用于翻译的双语数据的效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010681467.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种祛癍膏的制造工艺流程
- 下一篇:一种中药制备用原料筛选装置