[发明专利]基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置在审

申请号：	202010226101.6	申请日：	2020-03-27
公开（公告）号：	CN111444730A	公开（公告）日：	2020-07-24
发明（设计）人：	艾山·吾买尔;西热艾力·海热拉;刘文其;盛嘉宝;早克热·卡德尔;郑炅;徐翠云;斯拉吉艾合麦提·如则麦麦提	申请（专利权）人：	新疆大学
主分类号：	G06F40/44	分类号：	G06F40/44;G06F40/58
代理公司：	北京汇捷知识产权代理事务所(普通合伙) 11531	代理人：	张丽
地址：	830046 新疆维吾尔***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 transformer 模型数据增强机器翻译系统训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于Transformer模型的数据增强维汉机器翻译系统训练装置,Transformer模型由编码器和解码器两个部分组成，其特征在于：模型的左半边部分是编码器端，由6个相同的层叠加组成，每一层由两个子层组成。右半部分是解码器端，同解码器由6个相同的层叠加组成，每一层由三个子层组成。

2.根据权利要求1所述的基于Transformer模型的数据增强维汉机器翻译系统训练装置，其特征在于：所述编码器的第一个子层self-attention层，第二个子层是前馈神经网络，每个单词先经过self-attention层，对单词进行编码，获取单词的位置信息，单词位置信息通过位置编码器获取，它从输入向量上创建查询和键值对向量，通过缩放点积注意力算法训练该三个向量。

3.基于Transformer模型的数据增强维汉机器翻译系统训练方法，其特征在于：训练方法包括以下步骤：

A、对语料进行预处理：

B、短语对齐、抽取和过滤，并抽取名词短语；

C、生成伪平行句对。

4.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法，其特征在于：所述步骤A中预处理包括对汉语的的预处理和维吾尔语的预处理，使用维吾尔语预处理工具和分词工具，对维吾尔文进行扩建区-基本区编码转换和分词，对中文语料进行全角-半角的转化，并使用哈工大的中文分词工具对汉语语料分词。

5.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法，其特征在于：所述步骤B中短语对齐、抽取使用统计机器翻译工具moses进行短语对齐和短语对抽取，得到约一千万条短语对；短语的过滤是通过简单地规则对抽取的短语对进行过滤，定义的规则如下：

a、过滤包含标点符号的短语对；

b、过滤包含数字的短语对；

c、过滤中文短语包含非中文字符或者维吾尔语短语包含非维吾尔语字符的短语对；

d、过滤长度比例过大或过小的短语对；

e、过滤单个词和非名词短语，之后剩下的短语对有324万条；

抽取名词短语，使用哈工大的句法分析器对中文句子进行句法分析，抽取句子中的所有名词短语；因缺少维吾尔语句法分析器，故采用短语对齐表找出中文名词短语对应的维吾尔语名词短语。

6.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法，其特征在于：所述步骤C中包括：

a、训练词向量，用汉语和维吾尔语单语语料训练词向量模型，词向量选用的是word2vec中的skip-gram模型；

b、计算短语相似度：首先在单词向量基础下计算短语向量，其次通过余弦相似度计算两个短语的相似度，把短语中的每个单词的向量相加再求平均，从而得到短语的向量；然后分别计算每个短语与短语表中的所有短语的相似度，计算短语相似度时使用的采用的是余弦相似度；计算短语向量和短语相似度公式如下：

其中p是短语向量，w_i是第i个单词的向量，p_i和p_j是需要计算相似度的两个短语向量；

c、生成句子：把原始句对中的名词短语用短语表中与它相似度最高的短语来替换，计算使用的是维吾尔语的短语相似度，在替换维吾尔语短语时，同时替换对应的汉语句子中的短语。

d、筛选伪平行语料，过滤掉不符合规则：使用SRILM在359万条维吾尔语的单语数据和354万汉语的单语数据分别训练出维吾尔语和汉语的语言模型,通过训练的语言模型计算每条新生成句子的困惑度，过滤掉新生成句子比原句子困惑度高5的句子，其中困惑度度量是一种评价语言模型质量良好的指标，困惑度是一种信息论的测度，用来测量一个概率模型预测样本的好坏，困惑度越低越好，给定一个包含n个词的文本语料w₁,w₂,…,w_n和一个基于词语历史的用于为词语分配概率的语言模型函数LM,LM在这个语料困惑度是：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新疆大学，未经新疆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010226101.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于图卷积的流场重构方法
下一篇：一种具有声学扩声功能的扁圆形水杯状手机座

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置在审

专利文献下载