[发明专利]一种基于嵌入式系统的端到端语音合成网络有效
申请号: | 202111035763.6 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113707126B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 李相 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/047;G10L25/24;G10L25/30;G10L19/16 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 杨植 |
地址: | 116024*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 嵌入式 系统 端到端 语音 合成 网络 | ||
1.一种基于嵌入式系统的端到端语音合成网络,其特征在于,该端到端语音合成网络将文字文件转换到语音文件,步骤如下:
首先,对现有的Waveglow声码器模型进行结构化稀疏化处理,在WaveGlow声码器模型中,将WN模型的扩展卷积部分和膨胀卷积部分用CNN进行替换;其次,去掉WN模型中多余的残差连接和跳跃连接,结构化稀疏化处理后的模型称为Fast Waveglow模型;
然后,对端到端语音合成网络的编码端Fastspeech模型前馈一个韵律编码器,得到新的Rhythm Fastspeech网络;其中,韵律编码器由Prenet模块和CBHG模块组成;Prenet模块由两层全连接层组成,CBHG模块输出一个隐藏状态序列;基于该编码端Fastspeech模型构建编解码前端网络,以文字作为输入,输出梅尔谱图;
最后,将新的Rhythm Fastspeech网络和经过稀疏化处理后的Fast Waveg-low模型合并为一个单一的网络,同时进行训练,即end-to-end方法;之后,将训练好的权重模型取出,在NPU嵌入式平台上面移植模型;首先,先将训练好的权重模型提取出来,将该权重模型转换成ONNX模型,然后再将ONNX模型转成RKNN形式;在模型推理的过程中,对于不支持的算子用softmax函数进行替换;其次,将模型封装到推理函数中,最后在嵌入式平台上移植推理函数,运行推理函数,得到最终的输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111035763.6/1.html,转载请声明来源钻瓜专利网。