[发明专利]一种用于闽南语的合成方法及其装置在审
申请号: | 201911285925.4 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111028824A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 洪青阳;颜世江;许彬彬;陈越;李琳 | 申请(专利权)人: | 厦门大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L19/02;G10L25/30;G06F40/242;G06F40/289 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 闽南语 合成 方法 及其 装置 | ||
本申请公开了一种用于闽南语的合成方法及其装置,该方法的一具体实施方式包括:通过汉语‑闽南语音素映射词典和闽南语录音分别构建汉语文本库、闽南语音素库和闽南语语音库,通过闽南语音素库和编码解码器将文本数据转换为Mel频谱序列,通过声码器将Mel频谱序列还原为时域下波形序列,最后合成闽南语语音。该方法采用基于端到端模型的深度学习算法,可实现快速、准确地将汉语转换为闽南语,同时调整合成后的闽南语韵律,提高了语音合成的精度。
技术领域
本申请涉及语音合成领域,具体涉及一种用于闽南语的合成方法及其装置。
背景技术
语音合成是一种将文本信息转换成语音的技术,是人机交互中的关键技术之一。传统的语音合成技术主要包含参数合成、拼接合成、隐马尔可夫模型等,而随着深度学习技术的发展,学者们更倾向于模拟人类的智能处理方式,实现语音合成的端到端模型,即输入文本信息后,系统直接输出对应的语音信息。
目前,普通话的语音合成技术已相当成熟,因此,多语种、方言等语音合成逐渐成为语音合成领域的研究热点。在方言语音合成研究进展上,多数合成系统只是利用语音修改技术,对普通话的韵律进行修改,合成的语音在方言特有的读音上略显不足,尤其像闽南语这种具有多音节和多声调的复杂方言,很难实现精确翻译与端到端的快速合成。
发明内容
本申请的目的在于提出了一种改进的用于闽南语的合成方法及其装置,来解决目前的闽南语合成在音节和声调上不精确、无法实现端到端转换的技术问题。
第一方面,本申请提供了一种用于闽南语的合成方法,该方法包括:S1,通过汉语-闽南语音素映射词典和闽南语录音分别构建汉语文本库、闽南语音素库和闽南语语音库;S2,通过汉语文本库对输入的文本数据进行分词,通过闽南语音素库将文本数据分词映射为闽南语音素序列;S3,通过音素嵌入的方式对闽南语音素序列进行特征提取得到闽南语音素序列特征,使用编码解码器将闽南语音素序列特征转换为Mel频谱序列,由声码器将Mel频谱序列还原为时域下波形序列,合成闽南语语音。
在一些实施例中,步骤S3的“通过音素嵌入的方式对闽南语音素序列进行特征提取得到闽南语音素序列特征,使用编码解码器将闽南语音素序列特征转换为Mel频谱序列”具体包括:
S31,对文本数据进行分词以及音素转换,通过音素嵌入的方式提取文本特征后使用卷积神经网络和双向长短时记忆神经网络对特征进行编码,实现文本数据的编码;
S32,通过引入位置敏感注意力机制对编码数据进行解码辅助,具体公式为:
fi=F*cαi-1
其中,si是当前步骤解码器循环神经网络的隐状态,hj是上一步骤循环神经网络的隐状态,W、V、U分别是对应状态的权重矩阵,b是偏置值,初始为0向量,位置特征fi来自累加注意力权重cαi的卷积。
在一些实施例中,步骤S3的“由声码器将Mel频谱序列还原为时域下波形序列”具体包括:通过后处理网络将Mel频谱序列转换成Linear频谱序列,再通过Griffin Lim算法将Linear频谱序列还原为时域下波形序列。
在一些实施例中,步骤S3具体还包括:
S30,对闽南语语音库进行声学特征提取以得到Mel频谱序列和Linear频谱序列。
在一些实施例中,声学特征提取具体包括:
S301,对闽南语语音库的语音数据进行预加重处理,具体计算公式为:
H(Z)=1-μ z-1
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911285925.4/2.html,转载请声明来源钻瓜专利网。