[发明专利]一种神经机器翻译系统的动态大小训练批形成方法和系统在审
申请号: | 202111248013.7 | 申请日: | 2021-10-26 |
公开(公告)号: | CN114021547A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 刘小峰 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/58;G06N3/02;G06N3/08 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 胡秋萍 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经 机器翻译 系统 动态 大小 训练 形成 方法 | ||
1.一种神经机器翻译系统的动态大小训练批形成方法,其特征在于,该方法包括:
S1.解析平行语料,对语料进行切分和向量化,得到向量化句对;
S2.对向量化句对进行分块,按照词条数对向量化句对块中的句对进行升序排序;
S3.按照批大小对句对块中排序后句对进行分组和填充,所述批大小为一批中所有句对的长度之和,形成训练批。
2.如权利要求1所述的方法,其特征在于,步骤S1包括:
S11.对平行语料进行解析,得到源语言和目标语言句对流;
S12.对句对流中的句子进行切分,生成源语言和目标语言字典并保存;
S13.利用生成的源语言和目标语言字典,向量化平行语料。
3.如权利要求2所述的方法,其特征在于,步骤S11中,不同格式的平行语料使用不同解析器,语料格式和解析器的对应关系存放在配置文件中。
4.如权利要求2所述的方法,其特征在于,步骤S12中,不同文本语言使用不同的切分器,文本语言和切分器的对应关系存放在配置文件中。
5.如权利要求2所述的方法,其特征在于,步骤S13中,若指定生成的字典大小,维护词条和它在文本中出现次数的计数结构,扫描文本的过程中更新出现次数,扫描结束后根据出现次数对计数结构进行降序排序,将排序后的计数结构中前面指定字典大小的词条作为字典内容。
6.如权利要求1至5任一项所述的方法,其特征在于,步骤S2中,对向量化句对进行成块缓存,每次取一个向量化句对块,并对向量化句对块中的句对根据两个数字序列的总长进行升序排序。
7.如权利要求1所述的方法,其特征在于,步骤S3中,根据每个批的词条总数对排序后的句对块进行分组;对分组后的每组中的句对按照该组中最大句对长度进行句末补零填充,得到长度一致的句对组;将句对组进一步转换成训练程序需要的批张量,形成动态大小训练批。
8.一种神经机器翻译系统的动态大小训练批形成系统,其特征在于,该系统包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至7任一项所述的神经机器翻译系统的动态大小训练批形成方法。
9.如权利要求8所述的系统,其特征在于,所述处理器包括配置模块,用于维护平行语料类型和解析器对应关系、文本语言和切分器对应关系、字典大小、句对块大小和批大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111248013.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:EEPROM电路
- 下一篇:隔离开关A修弹性连接销装卸装置