[发明专利]基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置在审
申请号: | 202010226101.6 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111444730A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 艾山·吾买尔;西热艾力·海热拉;刘文其;盛嘉宝;早克热·卡德尔;郑炅;徐翠云;斯拉吉艾合麦提·如则麦麦提 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06F40/44 | 分类号: | G06F40/44;G06F40/58 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 张丽 |
地址: | 830046 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 模型 数据 增强 机器翻译 系统 训练 方法 装置 | ||
1.基于Transformer模型的数据增强维汉机器翻译系统训练装置,Transformer模型由编码器和解码器两个部分组成,其特征在于:模型的左半边部分是编码器端,由6个相同的层叠加组成,每一层由两个子层组成。右半部分是解码器端,同解码器由6个相同的层叠加组成,每一层由三个子层组成。
2.根据权利要求1所述的基于Transformer模型的数据增强维汉机器翻译系统训练装置,其特征在于:所述编码器的第一个子层self-attention层,第二个子层是前馈神经网络,每个单词先经过self-attention层,对单词进行编码,获取单词的位置信息,单词位置信息通过位置编码器获取,它从输入向量上创建查询和键值对向量,通过缩放点积注意力算法训练该三个向量。
3.基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:训练方法包括以下步骤:
A、对语料进行预处理:
B、短语对齐、抽取和过滤,并抽取名词短语;
C、生成伪平行句对。
4.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:所述步骤A中预处理包括对汉语的的预处理和维吾尔语的预处理,使用维吾尔语预处理工具和分词工具,对维吾尔文进行扩建区-基本区编码转换和分词,对中文语料进行全角-半角的转化,并使用哈工大的中文分词工具对汉语语料分词。
5.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:所述步骤B中短语对齐、抽取使用统计机器翻译工具moses进行短语对齐和短语对抽取,得到约一千万条短语对;短语的过滤是通过简单地规则对抽取的短语对进行过滤,定义的规则如下:
a、过滤包含标点符号的短语对;
b、过滤包含数字的短语对;
c、过滤中文短语包含非中文字符或者维吾尔语短语包含非维吾尔语字符的短语对;
d、过滤长度比例过大或过小的短语对;
e、过滤单个词和非名词短语,之后剩下的短语对有324万条;
抽取名词短语,使用哈工大的句法分析器对中文句子进行句法分析,抽取句子中的所有名词短语;因缺少维吾尔语句法分析器,故采用短语对齐表找出中文名词短语对应的维吾尔语名词短语。
6.根据权利要求3所述的基于Transformer模型的数据增强维汉机器翻译系统训练方法,其特征在于:所述步骤C中包括:
a、训练词向量,用汉语和维吾尔语单语语料训练词向量模型,词向量选用的是word2vec中的skip-gram模型;
b、计算短语相似度:首先在单词向量基础下计算短语向量,其次通过余弦相似度计算两个短语的相似度,把短语中的每个单词的向量相加再求平均,从而得到短语的向量;然后分别计算每个短语与短语表中的所有短语的相似度,计算短语相似度时使用的采用的是余弦相似度;计算短语向量和短语相似度公式如下:
其中p是短语向量,wi是第i个单词的向量,pi和pj是需要计算相似度的两个短语向量;
c、生成句子:把原始句对中的名词短语用短语表中与它相似度最高的短语来替换,计算使用的是维吾尔语的短语相似度,在替换维吾尔语短语时,同时替换对应的汉语句子中的短语。
d、筛选伪平行语料,过滤掉不符合规则:使用SRILM在359万条维吾尔语的单语数据和354万汉语的单语数据分别训练出维吾尔语和汉语的语言模型,通过训练的语言模型计算每条新生成句子的困惑度,过滤掉新生成句子比原句子困惑度高5的句子,其中困惑度度量是一种评价语言模型质量良好的指标,困惑度是一种信息论的测度,用来测量一个概率模型预测样本的好坏,困惑度越低越好,给定一个包含n个词的文本语料w1,w2,…,wn和一个基于词语历史的用于为词语分配概率的语言模型函数LM,LM在这个语料困惑度是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010226101.6/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置