[发明专利]一种多语种文本生成方法、装置、设备及存储介质在审
申请号: | 202111033454.5 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113743089A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 陈梦楠;高丽;祖漪清 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王云晓 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 文本 生成 方法 装置 设备 存储 介质 | ||
本申请提供了一种多语种文本生成方法、装置、设备及存储介质,其中,方法包括:获取多语种单词表,多语种单词表包含多个词条,每个词条包括一个单词以及该单词的语种信息;利用预先建立的多语种文本生成模型,以多语种单词表为依据生成多语种文本,其中,多语种文本生成模型以生成符合真实多语种文本特点的多语种文本为生成目标进行文本生成。经由本申请提供的多语种文本生成方法能够生成流畅自然、符合人类表达习惯的多语种文本。
技术领域
本申请涉及文本生成技术领域,尤其涉及一种多语种文本生成方法、装置、设备及存储介质。
背景技术
文本生成是自然语言处理中较难的研究方向,其应用场景多且广泛。近年来,文本生成已经在信息抽取、对话系统、小说合成和广告文案生成取得了较大的进展。
随着全球化的发展,在日常交流、非正式信息等文本生成应用的重要场景中,文本或者语音中不同语种混合的语言现象越发明显。此外,在语种判别、多语种语音合成、多语种语音识别等领域,需要大量的多语种文本语料,但是,在实际生活中,多语种文本往往混杂在单语种文本之中,占比较低,即大量的多语种文本难以获得。
综上,为了满足某些文本生成应用场景对于多语种文本生成的需求,以及某些领域对于大量多语种文本的需求,目前亟需一种多语种文本生成方案。
发明内容
有鉴于此,本申请提供了一种多语种文本生成方法、装置、设备及存储介质,用以自动生成多语种文本,其技术方案如下:
一种多语种文本生成方法,包括:
获取多语种单词表,所述多语种单词表包含多个词条,每个词条包括一个单词以及所述单词的语种信息;
利用预先建立的多语种文本生成模型,以所述多语种单词表为依据生成多语种文本,其中,所述多语种文本生成模型以生成符合真实多语种文本特点的多语种文本为生成目标进行文本生成。
可选的,所述多语种文本生成模型采用对抗生成网络中的生成网络;
所述多语种文本生成模型的训练目标为,使所述对抗生成网络中的判别网络无法区分输入的多语种文本为所述生成网络生成的文本还是真实文本。
可选的,所述以所述多语种单词表为依据生成多语种文本,包括:
根据所述多语种单词表中的语种信息,从所述多语种单词表中随机采样若干词条组成目标单词表;
以所述目标单词表为依据生成多语种文本。
可选的,所述以所述目标单词表为依据生成多语种文本,包括:
确定所述目标单词表中每个词条的特征向量以及所述目标单词表的特征向量,其中,所述目标单词表的特征向量为所述目标单词表中所有词条整体的特征向量;
基于所述目标单词表的特征向量,确定包含句子文法信息的向量,作为全局计划隐变量;
基于所述全局计划隐变量、所述目标单词表中每个词条的特征向量以及所述目标单词表的特征向量,生成多语种文本。
可选的,所述基于所述目标单词表的特征向量,确定包含句子文法信息的向量,作为全局计划隐变量,包括:
基于所述目标单词表的特征向量,确定所述目标单词表的特征向量服从的正态分布;
从所述正态分布上采样若干值,以得到所述全局计划隐变量。
可选的,所述基于所述全局计划隐变量、所述目标单词表中每个词条的特征向量以及所述目标单词表的特征向量,生成多语种文本,包括:
基于所述全局计划隐变量以及所述目标单词表中每个词条的特征向量,从所述目标单词表中确定参与文本生成的词条,作为目标词条;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111033454.5/2.html,转载请声明来源钻瓜专利网。