[发明专利]一种基于端到端神经机器翻译的汉盲翻译方法及系统有效
申请号: | 202010409944.X | 申请日: | 2020-05-14 |
公开(公告)号: | CN111581991B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 苏伟;蔡川;许存禄;林和;吴尽昭;蒋琪 | 申请(专利权)人: | 兰州大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06F40/126;G06F40/157 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 何志欣 |
地址: | 730000 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 端到端 神经 机器翻译 翻译 方法 系统 | ||
1.一种基于端到端神经机器翻译的汉盲翻译方法,其特征在于,所述方法至少包括:
基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型;
基于现存未经处理的汉语文本到盲文ASCII码转换的对照语料库训练所述端到端神经机器翻译模型;在构建所述端到端神经机器翻译模型的情况下,所述方法还包括如下步骤:
基于所述对照语料库获取关于汉语语料的第一语料以及与所述第一语料对照的用于表示盲文的第二语料;
对所述第一语料和第二语料进行预处理以转换为所述端到端神经机器翻译模型需要的计算机信息,其中,
所述计算机信息至少包括对应所述第一语料的第一字典和对应所述第二语料的第二字典;对所述第一语料和第二语料进行预处理以转换为所述端到端神经机器翻译模型需要的计算机信息的步骤至少包括:
遍历所述第一语料和第二语料生成至少包括所述第一字典和所述第二字典的字典;
至少基于中文标点符号和截断长度对所述第一语料和第二语料进行切分,从而分别得到对应所述第一语料的汉语句子和对应所述第二语料的盲文句子,其中,
基于所述第一语料的切分位置信息将所述第二语料切分为对照所述汉语句子的盲文句子,并记录所述汉语句子的第一最大长度和所述盲文句子的第二最大长度;
基于切分后得到的所述汉语句子和盲文句子分别进行标记;
通过所述字典将所述汉语句子和盲文句子转换为数字表示;基于切分后得到的所述汉语句子和盲文句子分别进行标记的步骤如下:
在所述汉语句子和盲文句子的首部添加开始标记,并在所述汉语句子和盲文句子的尾部添加结束标记,其中,
在所述汉语句子小于所述第一最大长度和/或所述盲文句子的长度小于所述第二最大长度的情况下,在所述结束标记之后添加补零标记;在所述端到端神经机器翻译模型获取预处理的所述第一语料和第二语料的计算机信息后,所述方法执行如下步骤:
所述端到端神经机器翻译模型学习汉语文本到盲文ASCII码直接转换的映射函数;
基于预处理后的所述第一语料和第二语料不断训练得到所述端到端神经机器翻译模型的最优超参数;
基于所述最优超参数调整所述端到端神经机器翻译模型得到训练好的端到端神经机器翻译模型;在利用训练好的端到端神经机器翻译模型进行翻译的情况下,所述方法执行如下步骤:
对输入的汉语文本进行预处理以转换为所述端到端神经机器翻译模型需要的计算机信息;
使用训练好的端到端神经机器翻译模型将预处理后的汉语文本转为盲文ASCII码。
2.一种用于执行权利要求1所述的基于端到端神经机器翻译的汉盲翻译方法的系统,至少包括为用户提供汉语文本到盲文转换策略的转换逻辑层,其特征在于,
所述转换逻辑层配置为:
基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型;
基于现存未经处理的汉语文本到盲文ASCII码转换的对照语料库训练所述端到端神经机器翻译模型。
3.根据权利要求2的所述的汉盲翻译系统,其特征在于,所述转换逻辑层至少包括预处理模块、翻译模块和盲文结果处理模块,
所述翻译模块配置为通过训练好的所述端到端神经机器翻译模型将所述预处理模块传输的用户输入的汉语文本转换为盲文ASCII码,并将所述盲文ASCII码传输至所述盲文结果处理模块。
4.根据权利要求3的所述的汉盲翻译系统,其特征在于,所述预处理模块至少包括汉语文本获取单元和预处理单元,其中,
所述汉语文本获取单元配置为将用户录入的汉语转换为所述预处理单元能够识别的汉语文本并传输至所述预处理单元;
所述预处理单元配置为对所述汉语文本获取单元传输的汉语文本进行切分、标记处理以使其转换为所述端到端神经机器翻译模型需要的计算机信息,并将该信息传输至所述翻译模块。
5.根据权利要求4的所述的汉盲翻译系统,其特征在于,所述翻译模块至少包括模型调用单元、模型训练单元和转换单元,其中,
所述模型调用单元配置为调用所述对照语料库至所述预处理单元和所述模型训练单元,并且能够根据所述汉盲翻译系统的部署环境调用所述模型训练单元内训练好的所述端到端神经机器翻译模型至所述转换单元;
所述模型训练单元配置为:
基于所述预处理单元传输的所述端到端神经机器翻译模型需要的计算机信息不断训练得到所述端到端神经机器翻译模型的最优超参数;
基于所述最优超参数调整所述端到端神经机器翻译模型得到训练好的端到端神经机器翻译模型;
所述转换单元配置为基于训练好的端到端神经机器翻译模型将所述预处理模块传输的用户输入的汉语文本转换为盲文ASCII码,并将所述盲文ASCII码传输至所述盲文结果处理模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州大学,未经兰州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010409944.X/1.html,转载请声明来源钻瓜专利网。