[发明专利]一种基于说话人特征的个性化语音翻译方法和装置有效

申请号：	202010668930.X	申请日：	2020-07-13
公开（公告）号：	CN111785258B	公开（公告）日：	2022-02-01
发明（设计）人：	周琳岷;王昆;朱海	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/26;G06F40/58;G10L13/04
代理公司：	四川省成都市天策商标专利事务所(有限合伙) 51213	代理人：	陈艺文
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于说话特征个性化语音翻译方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于说话人特征的个性化语音翻译方法，其特征在于，包括以下步骤：

步骤1、采集说话人语音，提取说话人语音声学特征，并转化为说话人特征向量；

步骤2、说话人特征向量结合说话人语音声学特征进行说话人文本识别，得到说话人的文本；

步骤3、将说话人的文本翻译成目标语言的文本；

步骤4、将步骤3生成的目标语言的文本编码结合步骤1生成的说话人特征向量，得到带有说话人特征的目标文本向量；

步骤5、通过文本转语音模型将步骤4生成的目标文本向量生成目标语音；

步骤4中，得到带有说话人特征的目标文本向量的方法，包括：

将目标语音文本进行通过音素字典查找文本的数字序号并进行编码，产生目标文本特征向量和步骤1得到的说话人特征向量结合，得到带有说话人特征的目标文本向量；

根据文本中单词的位置得到文本的位置特征，并转化为文本位置特征向量；

步骤1产生的的说话人特征向量按照说话人语音文本中的音素数量进行拓展，每个目标文本向量对应一个说话人特征向量；

将目标文本向量、文本位置特征向量和说话人特征向量按照声学特征帧数进行拓展并结合，输入端到端网络。

2.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法，其特征在于，步骤1中，提取说话人语音的语音声学特征的方法，包括：

说话人的声音进行加窗傅里叶变化得到线性特征，再通过梅尔滤波处理得到说话人语音声学特征。

3.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法，其特征在于，步骤1中，说话人语音的语音声学特征转化为说话人特征向量的方法，包括：

通过不同人物语音样本训练的语音特征识别模型，该语音特征识别模型至少包括深度神经网络；

将步骤1中提取的说话人语音的语音声学特征输入所述语音特征识别模型，得到说话人特征向量。

4.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法，其特征在于，步骤2中，根据步骤1得到的说话人特征向量与步骤1中说话人语音的语音声学特征参数进行拼接形成新的特征向量，并将其作为文本识别模型的神经网络的输入，将语音识别为对应文本。

5.根据权利要求4所述的一种基于说话人特征的个性化语音翻译方法，其特征在于，

对说话人特征向量和说话人语音声学特征分别进行特征向量化；

将说话人特征向量按照说话人语音声学特征中的帧数进行拓展并拼接到一起；

将拼接后的向量作为神经网络的输入，将语音识别为对应文本。

6.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法，其特征在于，步骤3中，将说话人的文本翻译成目标语言的文本的方法，包括：

通过使用端到端网络，采用自注意力机制，实现由说话人文本翻译为目标语言文本。

7.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法，其特征在于，步骤5中，所述文本转语音模型至少包括端到端的神经网络，并使用注意力机制进行解码，得到输出端的音频线性预测系数，将音频线性预测系数生成目标语音声学特征，用端到端网络和对抗神经网络声码器串联实现个性化语音生成，声码器通过不同样本的声学特征作为输入，样本的音频编码作为输出训练得到。

8.一种基于说话人特征的个性化语音翻译装置，其特征在于，包括：

说话人音频特征提取单元，用于采集说话人语音，提取说话人语音声学特征，并转化为说话人特征向量；

说话人语音识别单元，用于说话人特征向量结合说话人语音声学特征进行说话人文本识别，得到说话人的文本；

翻译单元，用于将说话人的文本翻译成目标语言的文本；

编码器单元，用于将将翻译单元生成的目标语言的文本编码结合说话人音频特征提取单元生成的说话人特征向量，得到带有说话人特征的目标文本向量；

端到端文本特征转音频特征单元，用于通过文本转语音模型将编码器单元生成的目标文本向量生成目标语音；

编码器单元中，得到带有说话人特征的目标文本向量的方法，包括：

将目标语音文本进行通过音素字典查找文本的数字序号并进行编码，产生目标文本特征向量和说话人音频特征提取单元得到的说话人特征向量结合，得到带有说话人特征的目标文本向量；

根据文本中单词的位置得到文本的位置特征，并转化为文本位置特征向量；

说话人音频特征提取单元产生的的说话人特征向量按照说话人语音文本中的音素数量进行拓展，每个目标文本向量对应一个说话人特征向量；

将目标文本向量、文本位置特征向量和说话人特征向量按照声学特征帧数进行拓展并结合，输入端到端网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。