[发明专利]一种面向多源异构编程语言的智能源码翻译方法及系统有效
申请号: | 202110405714.0 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113190233B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 魏志强;刘园园;杨永全 | 申请(专利权)人: | 中国海洋大学;青岛海洋科学与技术国家实验室发展中心 |
主分类号: | G06F8/41 | 分类号: | G06F8/41;G06F40/289 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽楼 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 多源异构 编程 语言 智能 源码 翻译 方法 系统 | ||
1.一种面向多源异构编程语言的智能源码翻译方法,其特征在于,所述方法包括:
获取能够实现相同功能的至少两种编码语言类型的编码源文件,并对获取的至少两种编码语言类型的编码源文件进行预处理,以获取BPE codes文件;
对每个编码源文件进行二进制化处理,以获取与每个编码源文件对应的二进制编码文件;
基于去噪自编码器构建初始的智能源码翻译模型,并利用所述二进制编码文件和BPEcodes文件对所述初始的智能源码翻译模型进行预训练,以确定经过预训练的智能源码翻译模型;
利用所述二进制编码文件和BPE codes文件对所述经过预训练的智能源码翻译模型进行翻译训练,直至相邻两次的翻译后的数据和所述获取的至少两种编码语言类型的编码源文件的损失值的绝对误差值小于预设的绝对误差阈值时,确定当前的智能源码翻译模型为最终智能源码翻译模型;
根据目标编码语言类型,利用所述最终智能源码翻译模型进行待翻译源码文件的翻译,以确定与所述待翻译源码文件对应的目标编码语言类型的编码文件;
其中,所述利用所述二进制编码文件和BPE codes文件对所述初始的智能源码翻译模型进行预训练,以确定经过预训练的智能源码翻译模型,包括:
在所述二进制编码文件中加入基于所述BPE codes文件确定的随机噪声,并依次将加入随机噪声的二进制编码文件输入到所述初始的智能源码翻译模型中,对所述初始的智能源码翻译模型进行预训练,使得智能源码翻译模型能够输出未加入随机噪声的二进制编码文件,以确定经过预训练的智能源码翻译模型;再重新读取多种语言预处理完成的数据,加入更多的噪声,通过自编码器输出无噪声的语句,把多语言之间对应片段映射在相近的潜在空间,获取能够实现多语言翻译的最终智能源码翻译模型;
其中,在确定最终智能源码翻译模型时,使用seq2seq网络同时训练两个模型,一个为源语言到目标语言的第一模型,所述第一模型能够输入有噪声的源语言句子,输出正确的目标语言,一个为目标语言到源语言的第二模型,所述第二模型能够输入目标语言的句子,输出预测的存在噪声的源语言。
2.根据权利要求1所述的方法,其特征在于,所述对获取的至少两种编码语言类型的编码源文件进行预处理,以获取BPE codes文件包括:
根据编码语言类型对每个编码源文件的内容进行分词,并进行所有的词的统计,以生成vocab词典;
基于字节对编码方法对所述vocab词典和分词后的编码源文件进行处理,以获取BPEcodes文件;其中,所述BPE codes文件包括:单词名称和每个单词出现的次数。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
主控服务器根据接收的客户端发送的登录账号和密码对用户身份进行验证,待验证通过后,接收并解析客户端发送的翻译请求,以获取目标编码语言类型和待翻译的源码文件,并进行翻译,反馈与所述待翻译源码文件对应的目标编码语言类型的编码文件至所述客户端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学;青岛海洋科学与技术国家实验室发展中心,未经中国海洋大学;青岛海洋科学与技术国家实验室发展中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110405714.0/1.html,转载请声明来源钻瓜专利网。