[发明专利]一种双语样本生成方法、装置、电子设备及存储介质有效
申请号: | 202011602102.2 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112633019B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 代嘉慧 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/51 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双语 样本 生成 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供的一种双语样本生成方法、装置、电子设备及存储介质,应用于信息技术领域,可以通过预先训练好的网络模型进行语言样本的自动生成,其中,该预先训练好的网络模型可以根据不同语序的第二语种语言和样本语言,生成多个语言样本,再从中选取满足要求的语言样本。从而可以使得所生成的语言样本可以满足不同语序的要求,保证语言样本的适用性和生成质量。
技术领域
本申请涉及信息技术领域,特别是涉及一种双语样本生成方法、装置、电子设备及存储介质。
背景技术
目前,随着人工智能的快速发展,机器翻译已经越来越广泛的被人们所应用。通过训练好的机器翻译的模型,可以自动将第二语种翻译为对应的第一语种,从而降低人工翻译成本,减少翻译时间,提高翻译的效率和质量。
而在对机器翻译的模型进行训练的过程中,为了提高模型翻译的精度,往往需要大量的第二语种数据和与之对应的第一语种数据所组成的样本,对模型进行训练。而传统的通过人工方式进行大量的语言样本的制作时,例如,训练样本为你好,对应的参照样本为hello,而在实际训练过程中训练样本往往需要几十万甚至上亿条,所需的人工成本较高,且制作的效率较低。
发明内容
本申请实施例的目的在于提供一种双语样本生成方法、装置、电子设备及存储介质,以实现双语言样本的快速生成。具体技术方案如下:
在本申请实施的第一方面,首先提供了一种双语样本生成方法,包括:
获取第一语种数据;
将第一语种数据输入预先训练的第一翻译网络模型和预先训练的第二翻译网络模型,对第一语种数据进行翻译,得到第一翻译网络模型对应的第一翻译结果和第二翻译网络模型对应的第二翻译结果,其中,第一翻译网络模型是以第一语种样本数据为训练样本以第二语种样本数据为测试样本训练得到的网络模型,第二翻译网络模型是以第一语种样本数据为训练样本以逆序后的第二语种样本数据为测试样本训练得到的网络模型,逆序后的第二语种样本数据为通过改变第二语种样本的语序但不改变第二语种样本的语义所得到的样本数据;
调整第一语种数据的语序,并将逆序后的第一语种数据输入预先训练的第三翻译网络模型和预先训练的第四翻译网络模型,对逆序后的第一语种数据进行翻译,得到第三翻译网络模型对应的第三翻译结果和第四翻译网络模型对应的第四翻译结果,其中,第三翻译网络模型是以逆序后的第一语种样本数据为训练样本以第二语种样本数据为测试样本训练得到的网络模型,第四翻译网络模型是以逆序后第一语种样本数据为训练样本以逆序后的第二语种样本数据为测试样本训练得到的网络模型;
调整第二翻译结果和第四翻译结果的语序,得到正序的第二翻译结果和正序的第四翻译结果;
选取第一翻译结果、第三翻译结果、正序的第二翻译结果和正序的第四翻译结果中任一翻译结果与其余翻译结果进行对比;
当任一翻译结果与其余翻译结果中一致的数量大于预设阈值时,将任一翻译结果与对应的第一语种数据组成双语样本。
可选的,当任一翻译结果与其余翻译结果中一致的数量大于预设阈值时,将任一翻译结果与对应的第一语种数据组成双语样本,包括:
当任一翻译结果与其余翻译结果中至少两项翻译结果一致时,停止进行对比,并将任一翻译结果与对应的第一语种数据组成双语样本。
可选的,将第一语种数据输入预先训练的第一翻译网络模型和预先训练的第二翻译网络模型,对第一语种数据进行翻译,得到第一翻译网络模型对应的第一翻译结果和第二翻译网络模型对应的第二翻译结果,包括:
将第一语种数据输入预先训练的第一翻译网络模型和预先训练的第二翻译网络模型,对第一语种数据进行翻译,得到第一翻译网络模型对应的第一待输出数据和第二翻译网络模型对应的第二待输出数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011602102.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据流标识的查询方法及装置
- 下一篇:医疗救援系统