[发明专利]融合多层次语言特征知识的汉越神经机器翻译的方法在审
申请号: | 202011409192.3 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112541364A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 余正涛;邹翔;赖华;徐毓;文永华;朱俊国 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/284;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 多层次 语言 特征 知识 神经 机器翻译 方法 | ||
1.融合多层次语言特征知识的汉越神经机器翻译的方法,其特征在于:
所述方法的具体步骤如下:
Step1、语料收集与预处理:收集汉越平行数据,并分别使用符合汉越语言特性的预处理工具对数据进行预处理;
Step2、在Step1的基础上,使用双向的LSTM获得词内字符的向量,将字符训练计算得到的词向量与预训练的词向量结合得到融合字符特征的词向量;
Step3、深层语义特征融合:在中心语驱动的短语结构语法中,一个句子由多个短语单元组成,表示为二叉树形式,另根据句子结构,在标准序列编码器上构造基于短语树的编码器,在词的基础上进一步融入短语特征知识;
完成了融合不同层次语言特征知识的汉语神经机器翻译的实现。
2.根据权利要求1所述的融合多层次语言特征知识的汉越神经机器翻译的方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、通过网络爬取、人工收集方式获得140K汉越平行句对,其中测试集2K平行句对,验证机2K平行句对;
Step1.2、中文数据利用JIEBA分词工具进行分词,使用斯坦福大学的StanfordNLP工具包进行短语据法分析;越南语数据采用越南语短语句法解析工具进行短语据法解析,以获得越南语短语树。
3.根据权利要求1所述的融合多层次语言特征知识的汉越神经机器翻译的方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、在神经机器翻译中需要将自然语言表征为特征向量的形式作为模型的输入,通过词内字符的信息计算得到该词的语义向量表示;
Step2.2、使用权重加权的方法,将通过字符训练计算得到的词向量和预训练的词向量相结合,以得到一个语义单元的最佳表示;
Step2.3、常见词本身就具有高质量的词向量表示,通过优化向量来将字符表示与词向量对齐,最终训练得到融合字符特征的词向量。
4.根据权利要求1所述的融合多层次语言特征知识的汉越神经机器翻译的方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、在中心语驱动的短语结构语法中,一个句子由多个短语组成,表示为二叉树形式,其中二叉树中的每个节点都用一个LSTM单元表示,并以自下而上的方式由短语向量构造句子向量;
Step3.2、在计算叶节点的LSTM单元时,允许模型计算同一个单词在句子中多次出现的不同表示形式;现在模型有两个不同的句子向量:一个来自序列编码器,另一个来自基于短语树的编码器,提供另一个Tree-LSTM单元,利用Tree-LSTM单元将最终序列编码器单元和基于短语树的编码器单元作为两个子单元,用来初始化解码器单元;
Step3.3、将注意力机制引入到短语树-序列模型中,使得模型不仅关注序列隐藏单元,还关注短语隐藏单元,当模型解码目标单词时,可以知道原语句中的哪些单词或者短语是重要的,在词的基础上进一步融入短语特征知识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011409192.3/1.html,转载请声明来源钻瓜专利网。