[发明专利]验证共有子词对XLM翻译模型效果影响的实验方法有效
申请号: | 202110079357.3 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112861516B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 余正涛;杨晓霞;吴霖;朱俊国;王振晗;文永华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/226 | 分类号: | G06F40/226;G06F40/242;G06F40/284;G06F40/58 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 验证 共有 xlm 翻译 模型 效果 影响 实验 方法 | ||
1.验证共有子词对XLM翻译模型效果影响的实验方法,其特征在于:所述方法包括:
Step1、对XLM翻译模型预训练的语料库进行预处理;
Step2、验证XLM翻译模型性能是否退化:用预处理后的语料库对XLM翻译模型进行预训练,用预训练后的模型初始化翻译模型,观察新的翻译模型的BLEU值;
其中Step1预处理包括如下:
首先获取英语和法语子词中的共有子词及所有子词词频;然后根据分离比例,随机对共有子词进行分离;随后读取所有英法子词的词表保存在词典中,用于后续生成分离子词文件;使用生成的分离子词文件初始化词典,最后使用初始化后的词典来结构化模型语料库文件;
所述方法的具体步骤如下:
Step1.1、获取英语和法语子词中的共有子词及所有子词词频;
Step1.2、根据分离比例,随机对共有子词进行分离,得到分离子词文件;
首先,根据共有子词总数和分离比例相乘计算出待分离共有子词的数量,使用随机函数对共有子词进行筛选,得到了要分离的共有子词和不分离的共有子词,将它们分开保存;查找要分离的共有子词分别在英法词表中出现的词频,并将其保存;
Step1.3、读取包含所有英法子词的词表并存在词典中;所有英法子词的词表包含子词以及词频;
Step1.4、生成分离子词文件;
首先读取含有所有英法子词的词表的词典,根据读取的数据判断是否是共有子词,如果是共有字词,再对共有子词进行是否分离的判断;如果不是共有子词,则不需进行是否分离的判断;在对共有子词进行是否分离的判断时,如果共有子词分离,则对英语法语中的词频进行标记,如果共有子词不分离,则对英语法语中的词频记为总词频;最后将不同类型的子词以不同标记保存在同一个文件中;
Step1.5、使用生成的分离子词文件初始化词典;
读取Step1.4生成的文件,将是分离的共有子词分别添加后缀来进行区分,并且分别用不同的id序号来表示;并将它们对应的词频也保存起来,对不是分离的共有子词,直接记录该子词对应的id并记录其词频,初始化词典类中的各种类成员;
Step1.6、使用初始化后的词典来结构化模型语料库文件;
读取BPE处理过的英法语料库文件中的每行句子中的子词,根据初始化后的词典使用子词的id序号替换对应子词,然后在每行末尾加上结尾标识符,最后保存在数组中;与此同时,也要将句子标识符的首末位置也一起保存到二进制文件中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110079357.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:高温裂解污泥厌氧消化降温预处理设备及工艺
- 下一篇:一种光学玻璃制造方法