[发明专利]语料扩充方法及系统在审
申请号: | 201910808605.6 | 申请日: | 2019-08-29 |
公开(公告)号: | CN112528680A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 王驹冬;李霞;丁庆;李小华 | 申请(专利权)人: | 上海卓繁信息技术股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/42;G06N3/08 |
代理公司: | 上海容慧专利代理事务所(普通合伙) 31287 | 代理人: | 于晓菁 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 扩充 方法 系统 | ||
本发明一种语料扩充方法及系统,包括:搜集中文语料和对应的英文语料,对中文语料进行分词处理,对英文语料和分词后的中文语料进行文本量化;构建包括英译汉模型和汉译英模型的翻译模型;将量化后的中文语料和英文语料分别作为汉译英模型的输入和输出训练模型,将量化后的英文语料和中文语料分别作为英译汉模型的输入和输出训练模型;搜集中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出英文翻译结果;将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果;将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,从而达到语料扩充的目的。
技术领域
本发明涉及语料扩充技术领域,特别是涉及一种语料扩充方法及系统。
背景技术
在人机对话系统中,面对复杂的用户场景,为了提高检索式问答系统的泛化性,提高用户体验,语料的扩充显得尤为重要。传统的方法是人为扩充语料,而人为的方法成本较高,并且扩充的数量有限。随着神经网络的快速发展,利用神经网络的办法进行语料库扩充取得了较好的效果。
发明内容
本发明针对现有技术存在的问题和不足,提供一种新型的语料扩充方法及系统。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种语料扩充方法,其特点在于,其包括以下步骤:
S1、搜集用于中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;
S2、构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;
S3、将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;
S4、搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;
S5、将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;
S6、将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。
较佳地,对抗生成网络采用LeakGAN。
本发明还提供一种语料扩充系统,其特点在于,其包括量化模块、构建模块、训练模块、第一翻译模块、扩充模块和第二翻译模块;
所述量化模块用于搜集供中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;
所述构建模块用于构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;
所述训练模块用于将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;
所述第一翻译模块用于搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;
所述扩充模块用于将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海卓繁信息技术股份有限公司,未经上海卓繁信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910808605.6/2.html,转载请声明来源钻瓜专利网。