[发明专利]语料扩充方法及系统在审

专利信息
申请号: 201910808605.6 申请日: 2019-08-29
公开(公告)号: CN112528680A 公开(公告)日: 2021-03-19
发明(设计)人: 王驹冬;李霞;丁庆;李小华 申请(专利权)人: 上海卓繁信息技术股份有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F40/42;G06N3/08
代理公司: 上海容慧专利代理事务所(普通合伙) 31287 代理人: 于晓菁
地址: 200030 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语料 扩充 方法 系统
【权利要求书】:

1.一种语料扩充方法,其特征在于,其包括以下步骤:

S1、搜集用于中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;

S2、构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;

S3、将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;

S4、搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;

S5、将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;

S6、将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。

2.如权利要求1所述的语料扩充方法,其特征在于,对抗生成网络采用LeakGAN。

3.一种语料扩充系统,其特征在于,其包括量化模块、构建模块、训练模块、第一翻译模块、扩充模块和第二翻译模块;

所述量化模块用于搜集供中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;

所述构建模块用于构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;

所述训练模块用于将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;

所述第一翻译模块用于搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;

所述扩充模块用于将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;

所述第二翻译模块用于将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。

4.如权利要求3所述的语料扩充系统,其特征在于,对抗生成网络采用LeakGAN。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海卓繁信息技术股份有限公司,未经上海卓繁信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910808605.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top