[发明专利]语料扩充方法及系统在审
申请号: | 201910808605.6 | 申请日: | 2019-08-29 |
公开(公告)号: | CN112528680A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 王驹冬;李霞;丁庆;李小华 | 申请(专利权)人: | 上海卓繁信息技术股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/42;G06N3/08 |
代理公司: | 上海容慧专利代理事务所(普通合伙) 31287 | 代理人: | 于晓菁 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 扩充 方法 系统 | ||
1.一种语料扩充方法,其特征在于,其包括以下步骤:
S1、搜集用于中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;
S2、构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;
S3、将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;
S4、搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;
S5、将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;
S6、将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。
2.如权利要求1所述的语料扩充方法,其特征在于,对抗生成网络采用LeakGAN。
3.一种语料扩充系统,其特征在于,其包括量化模块、构建模块、训练模块、第一翻译模块、扩充模块和第二翻译模块;
所述量化模块用于搜集供中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;
所述构建模块用于构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;
所述训练模块用于将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;
所述第一翻译模块用于搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;
所述扩充模块用于将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;
所述第二翻译模块用于将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。
4.如权利要求3所述的语料扩充系统,其特征在于,对抗生成网络采用LeakGAN。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海卓繁信息技术股份有限公司,未经上海卓繁信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910808605.6/1.html,转载请声明来源钻瓜专利网。