[发明专利]文本转语音方法、装置、电子设备及存储介质在审
申请号: | 202011640955.5 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112820269A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 李俊杰;陈闽川;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/10;G06F40/30;G06F40/289;G06F40/284 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语音 方法 装置 电子设备 存储 介质 | ||
本发明涉及自然语言处理技术,揭露一种文本转语音方法,包括:接收待转换文本,对所述待转换文本执行字嵌入及位置嵌入,得到文本编码向量,从所述文本编码向量中提取语义信息,得到语义向量,对所述待转换文本执行词性标注,得到词性标注信息,对所述待转换文本执行分词,得到词组集,利用所述语义向量及所述词性标注信息,检测所述词组集中每组词组的音调及拼音,得到音调集及拼音集,合成所述音调集及所述拼音集,得到所述待转换文本的语音。本发明还揭露文本转语音装置、电子设备以及存储介质。本发明可解决文本转语音的准确率较低。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本转语音方法、装置、电子设备及计算机可读存储介质。
背景技术
伴随人工智能蓬勃发展,文本转语音技术(TTS)也成为热点的技术突破方向,目前文本转语音技术主要结合中文分词、多音字消歧、韵律划分等传统方法,由于缺少对文本的深度提取,导致文本转语音的准确率较低。也有部分文本转语音技术基于神经网络来提升数据特征的效果,但所使用的神经网络较简单,导致文本转语音的准确率有待进一步提高。
发明内容
本发明提供一种文本转语音方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决文本转语音的准确率较低。
为实现上述目的,本发明提供的一种文本转语音方法,包括:
接收待转换文本,对所述待转换文本执行字嵌入及位置嵌入,得到文本编码向量;
从所述文本编码向量中提取语义信息,得到语义向量;
对所述待转换文本执行词性标注,得到词性标注信息;
对所述待转换文本执行分词,得到词组集;
利用所述语义向量及所述词性标注信息,检测所述词组集中每组词组的音调及拼音,得到音调集及拼音集;
合成所述音调集及所述拼音集,得到所述待转换文本的语音。
可选地,所述对所述待转换文本执行字嵌入及位置嵌入,得到文本编码向量,包括:
将所述待转换文本执行去噪及分词处理,得到待转换词组集;
根据所述待转换词组集的数量,构建相同数量且向量维度固定的空向量,将所述待转换词组集中每个待转换词组映射至所述空向量中,得到字嵌入向量集;
计算所述待转换词组集中每个待转换词组在所述待转换文本的位置,得到词组位置集,根据所述词组位置集构建位置向量集;
组合所述字嵌入向量集及所述位置向量集,得到所述文本编码向量。
可选地,所述从所述文本编码向量中提取语义信息,得到语义向量,包括:
构建并训练语义提取模型,当训练完成时,从所述语义提取模型中提取自注意力计算机制;
利用所述自注意力计算机制,提取所述文本编码向量的语义信息,得到所述语义向量。
可选地,所述训练语义提取模型,包括:
获取训练文本集及语义标签集;
将所述训练文本集输入至所述语义提取模型中,计算所述训练文本集中每个训练文本与其他训练文本的相似度,得到相似度集;
归一化所述相似度集得到权重集,利用所述权重集生成所述训练文本集的编码向量集;
对所述编码向量集及所述训练文本集执行解码操作,得到语义预测集;
计算所述语义预测集与所述语义标签集的误差值,判断所述误差值是否在预设误差范围内;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011640955.5/2.html,转载请声明来源钻瓜专利网。