[发明专利]一种多语种混合的异构神经网络机器学习翻译方法在审
申请号: | 202011576955.3 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112597780A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 蔡世清;房鹏展 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06F40/279;G06N3/04 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210032 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 混合 神经网络 机器 学习 翻译 方法 | ||
1.一种多语种混合的异构神经网络机器学习翻译方法,其特征在于,包括如下步骤:
步骤1:平行语料的预处理;将所有的平行语料混合以做统一的预处理,构建BPE分词器和数据集,所述数据集包含平行序列;
步骤2:构造异构seq2seq模型;以双向Transformer作为编码器,单向LSTM作为解码器,以Transformer编码器的输出作为上下文状态,用注意力机制连接编码器与解码器得到异构模型,用步骤1得到的数据集训练异构模型,用Adam优化器优化异构模型的参数;
步骤3:部署异构模型;异构部署训练好的异构模型,用以提供在线翻译服务;
步骤4:对请求文本进行翻译得到翻译文本;对在线的实时翻译请求的语料文本做与步骤1相同的预处理,传入异构模型进行编码和解码,将解码后的序列进行后处理,得到目标语言的翻译文本。
2.如权利要求1所述的一种多语种混合的异构神经网络机器学习翻译方法,其特征在于:所述步骤1中,所述预处理具体包括如下步骤:
步骤1-1:标点分割;使用空格符将平行语料中所有的标点符号与连接文本断开,设置标点连接符;
步骤1-2:分词;以空格符为分割符,将步骤1-1处理后的文本分割为token序列;
步骤1-3:子词分割;对步骤1-2得到的所有token序列使用subword-nmt工具包,学习BPE分词器,所述BPE分词器由算法模块和一个BPE词典构成,所述算法模块由subword-nmt提供,所述BPE词典由学习得到,用所述BPE分词器对token序列进一步分割,得到BPE序列,设置BPE前缀连接符;
步骤1-4:对步骤1-3得到的BPE序列添加上对应的开始符和结束符,所述开始符为语种类型标记符,所述结束符是统一的结束符。
3.如权利要求2所述的一种多语种混合异构神经网络机器学习翻译方法,其特征在于:所述步骤2中,所述数据集中的平行序列可以交换平行对方向用于训练不同方向的翻译,所述平行序列中的语种类型标记符为提示变量,用于为异构模型提供翻译方向的信息,令输入序列为x=[x1,x2,…,xn],输出序列为y=[y1,y2,…,ym],其中,n为输入序列长度,m为输出序列长度,将x输入Transformer得到上下文状态H=[h1,h2,…,hn],其中,hi∈Rd表示输入序列第i个元素的状态向量,d表示状态向量的维度大小,则解码器LSTM输出为:
si=f(si-1,yi-1,ci)
=g(W[si-1;ci],yi-1)
其中,g(.)为标准的LSTM时间步函数,si表示解码器第i个时刻的隐状态向量,[si-1;ci]表示将上一个时刻的历史隐状态与当前时刻上下文状态向量ci拼接起来,W表示变换矩阵将拼接后的向量变换成与si相同的维度,将变换后的向量作为新的历史隐状态向量,ci的计算定义为:
eij=si-1,hj
其中,eij表示输出序列第i个符号对输入序列第j个符号的注意力权重分数,由si-1与hj的内积得到,αij表示归一化后的注意力分数。
4.如权利要求3所述的一种多语种混合的异构神经网络机器学习翻译方法,其特征在于:所述步骤3中,所述异构部署具体为:所述异构模型的编码器部署在GPU上,所述异构模型的解码器部署在CPU;
所述步骤4中,对于在线的实时翻译请求,具体包括以下处理步骤:
步骤4-1:用空格符将请求文本中的标点符号与连接处断开,并添加标点连接符,与步骤1-1相同;
步骤4-2:以空格符作为分隔符将步骤4-1得到的文本分割为token序列,与步骤1-2相同;
步骤4-3:利用步骤1-3得到的BPE词典对步骤4-2得到的token序列进一步分割,得到BPE序列;
步骤4-4:根据翻译请求的翻译方向,对步骤4-3得到的BPE序列,在开头添加原语种标记符,在结尾添加结束标记符,得到输入序列,将输入序列输入编码器得到上下文状态,将上下文状态与目标语种标记符一起输入解码器逐步解码,直到解码输出为结束标记符为止;
步骤4-5:文本还原,根据标点连接符和BPE前缀连接符的指示,去除标点连接符、BPE前缀连接符以及分割处的空格符,将token序列还原成完整的一段文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011576955.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种平稳渐进式缓冲气缸
- 下一篇:防治产后出血子宫按摩仪