[发明专利]一种模型训练方法、装置、电子设备及存储介质在审
申请号: | 202110592495.1 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113204979A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 杨柳祎;李长亮;郭馨泽 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/30;G06N3/08;G06K9/62 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孟维娜;高莺然 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 电子设备 存储 介质 | ||
1.一种模型训练方法,其特征在于,所述方法包括:
获得第一语料对,其中,所述第一语料对包括:源语言的第一源文本,以及所述第一源文本对应的、目标语言的第一目标文本;
利用所述第一语料对训练样本构建模型,其中,所述样本构建模型用于:将所述目标语言的文本翻译为所述源语言的文本;
获得所述目标语言的第二目标文本,利用所述样本构建模型翻译所述第二目标文本,得到第二源文本;
利用第二语料对训练目标翻译模型,其中,所述第二语料对包括:所述第二源文本、第二目标文本,所述目标翻译模型用于:将所述源语言的文本翻译为所述目标语言的文本。
2.根据权利要求1所述的方法,其特征在于,所述利用第二语料对训练目标翻译模型,包括:
利用所述第一语料对、第二语料对训练所述目标翻译模型。
3.根据权利要求1所述的方法,其特征在于,所述获得第一语料对,包括:
获得包括所述第一源文本、第一目标文本的候选语料对;
对所述候选语料对进行清洗,得到第一语料对。
4.根据权利要求3所述的方法,其特征在于,所述对所述候选语料对进行清洗,得到第一语料对,包括:
识别所述候选语料对中存在乱码的乱码语料对,从所述候选语料对中去除所述乱码语料对,得到第一语料对;和/或
查找所述候选语料对中长度比值小于第一预设比值或大于第二预设比值的异常语料对,从所述候选语料对中去除所述异常语料对,得到第一语料对,其中,所述第一比值为:所述第一源文本的长度与所述第一目标文本的长度的比值,所述第二预设比值大于所述第一预设比值。
5.根据权利要求1所述的方法,其特征在于,所述获得所述目标语言的第二目标文本,包括:
获得所述目标语言的候选文本;
对所述候选文本进行清洗,得到第二目标文本。
6.根据权利要求5所述的方法,其特征在于,所述对所述候选文本进行清洗,得到第二目标文本,包括:
查找所述候选文本中长度处于预设长度范围的文本,作为第二目标文本;和/或
查找所述候选文本中不以预设的结尾标识符作为结尾的非完整文本,从所述候选文本中去除所述非完整文本,得到第二目标文本;和/或
识别各个候选文本的语义信息,根据所识别的语义信息确定所述候选文本中语义缺失的语义缺失文本,从所述候选文本中去除所述语义缺失文本,得到第二目标文本。
7.根据权利要求1-6中任一项所述的方法,其特征在于,在所述利用第二语料对训练目标翻译模型步骤之后,所述方法还包括:
获得所述源语言的测试文本;
将所述测试文本输入训练后的目标翻译模型,利用所述目标翻译模型对所述测试文本进行翻译,得到模型输出文本;
根据所述模型输出文本判断所述目标翻译模型的翻译结果是否准确,在所述目标翻译模型的翻译结果不准确的情况下,返回所述利用所述第一语料对训练样本构建模型的步骤。
8.根据权利要求7所述的方法,其特征在于,所述根据所述模型输出文本判断所述目标翻译模型的翻译结果是否准确,包括:
根据所述模型输出文本,计算所述目标翻译模型的准确度指标,其中,所述准确度指标包括:Bleu指标、和/或困惑度;
利用所述准确度指标判断所述目标翻译模型的翻译结果是否准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110592495.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于氧气湿化瓶的加热器
- 下一篇:基坑位移自动监测系统和监测方法