[发明专利]一种基于人工智能的语音韵律处理方法及装置有效
申请号: | 201910984463.9 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110782875B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 林炳怀;王丽园 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/14;G10L25/51 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 刘晖铭;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 语音 韵律 处理 方法 装置 | ||
1.一种基于人工智能的语音韵律处理方法,其特征在于,所述方法包括:
接收待测语音数据、以及所述待测语音数据对应的文本数据;
将所述待测语音数据与所述文本数据进行对齐处理,得到对齐结果;
基于所述对齐结果,通过二语者树模型对所述待测语音数据进行韵律检测,得到第一检测结果,以及
通过母语者树模型对所述待测语音数据进行韵律检测,得到第二检测结果;
将所述第一检测结果和所述第二检测结果进行融合处理,并将融合后的检测结果确定为所述待测语音数据最终的韵律检测结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述待测语音数据与所述文本数据进行对齐处理,得到对齐结果,包括:
将所述待测语音数据划分成N帧,提取每帧待测语音数据的音高和音强,并对所提取的音高和音强进行平滑处理,其中,N为正整数;
对所述每帧待测语音数据的每个音素进行语音识别,得到所述每个音素对应的发音起止时间,以及
通过帧数与时间的对应关系,得到所述每个音素对应的音高、音强、以及发音时长。
3.根据权利要求1所述的方法,其特征在于,
所述二语者树模型包括:重音二语者树模型、停顿二语者树模型和边界调二语者树模型;
所述通过二语者树模型对所述待测语音数据进行韵律检测,得到第一检测结果,包括:
通过所述重音二语者树模型对所述待测语音数据的重读位置进行检测,得到第一重读位置;
通过所述停顿二语者树模型对所述待测语音数据的停顿位置进行检测,得到第一停顿位置;
通过所述边界调二语者树模型对所述待测语音数据的边界调类型进行检测,得到第一边界调类型。
4.根据权利要求3所述的方法,其特征在于,通过所述重音二语者树模型对所述待测语音数据的重读位置进行检测之前,所述方法还包括:
获取二语者语音数据样本、以及对应的重读位置,对所述二语者语音数据样本进行韵律检测处理,得到音节音高、音强特征、归一化音高和音强、以及音节音高、音强变化趋势特征;
从所述音节音高、音强特征、归一化音高和音强、以及音节音高、音强变化趋势特征中,选择具有分类能力的特征作为节点构造初始的重音二语者树模型;
对所构造的初始的重音二语者树模型进行剪枝处理,得到用于检测所述第一重读位置的重音二语者树模型。
5.根据权利要求3所述的方法,其特征在于,通过所述停顿二语者树模型对所述待测语音数据的停顿位置进行检测之前,所述方法还包括:
获取二语者语音数据样本、以及对应的停顿位置,对所述二语者语音数据样本进行韵律检测处理,得到单词音高、音强特征、归一化静音时长、以及音高、音强变化趋势特征;
从所述单词音高、音强特征、归一化静音时长、以及音高、音强变化趋势特征中,选择具有分类能力的特征作为节点构造初始的停顿二语者树模型;
对所构造的初始的停顿二语者树模型进行剪枝处理,得到用于检测所述第一停顿位置的停顿二语者树模型。
6.根据权利要求3所述的方法,其特征在于,通过所述边界调二语者树模型对所述待测语音数据的边界调类型进行检测之前,所述方法还包括:
获取二语者语音数据样本、以及对应的边界调类型,对所述二语者语音数据样本进行韵律检测处理,得到不同粒度的发音特征、以及不同粒度的发音变化趋势特征;
从所述不同粒度的发音特征以及不同粒度的发音变化趋势特征中,选择具有分类能力的特征作为节点构造初始的边界调二语者树模型;
对所构造的初始的边界调二语者树模型进行剪枝处理,得到用于检测所述第一边界调类型的边界调二语者树模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910984463.9/1.html,转载请声明来源钻瓜专利网。