[发明专利]语音测评方法、装置、计算机设备和存储介质在审
申请号: | 202011338974.2 | 申请日: | 2020-11-25 |
公开(公告)号: | CN113421593A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 林炳怀;王丽园 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L15/26;G10L15/06;G10L15/02 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 测评 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及人工智能领域,具体涉及一种语音测评方法、装置、计算机设备和存储介质。所述方法包括:获取待测评语音以及与待测评语音对应的参考文本;分别对待测评语音以及参考文本进行编码处理,得到对应的语音编码向量序列和文本编码向量序列;文本编码向量序列中的文本编码向量与参考文本中的词对应;针对文本编码向量序列中的每个文本编码向量,分别确定与语音编码向量序列中的每个语音编码向量之间的匹配程度;根据匹配程度,确定每个文本编码向量所对应词的融合声学特征;基于参考文本中词的融合声学特征,确定待测评语音的测评分值。采用本方法能够提升语音测评的通用性。
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音测评方法、装置、计算机设备和存储介质。
背景技术
目前,一些语言教学类应用程序能够对用户的口语发音进行评测,以帮助用户提高口语发音。语音测评一般分为两个步骤:1、将待测评语音进行短时傅里叶变换,进而转换为相应的语谱图,然后基于音频的工程特性,从语谱图提取多种语音特征向量,如发音置信度、发音速度、发音时长等。2、将提取得到的多种语音特征向量输入至评测模块,得到对应的语音测评分数。
然而,现有的语音测评方法,需要开发人员具备音频方面的专业知识,才能确定从语谱图提取哪些信息作为语音特征向量,从而导致语音测评方法不具有通用性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升通用性的语音测评方法、装置、计算机设备和存储介质。
一种语音测评方法,所述方法包括:
获取待测评语音以及与所述待测评语音对应的参考文本;
分别对所述待测评语音以及所述参考文本进行编码处理,得到对应的语音编码向量序列和文本编码向量序列;所述文本编码向量序列中的文本编码向量与所述参考文本中的词对应;
针对所述文本编码向量序列中的每个文本编码向量,分别确定与所述语音编码向量序列中的每个语音编码向量之间的匹配程度;
根据所述匹配程度,确定每个所述文本编码向量所对应词的融合声学特征;
基于所述参考文本中词的所述融合声学特征,确定所述待测评语音的测评分值。
在一个实施例中,所述对所述待测评语音以及所述参考文本进行编码处理,得到对应的语音编码向量序列和文本编码向量序列,包括:
通过语音测评模型中的语音编码结构,对所述待测评语音进行语音编码,得到对应的语音编码向量序列;
通过所述语音测评模型中的文本编码结构,对所述参考文本进行文本编码,得到对应的文本编码向量序列;
所述针对所述文本编码向量序列中的每个文本编码向量,分别确定与所述语音编码向量序列中的每个语音编码向量之间的匹配程度,包括:
通过所述语音测评模型中的多头注意力机制结构,针对所述文本编码向量序列中的每个文本编码向量,分别确定与所述语音编码向量序列中的每个语音编码向量之间的匹配程度;
所述根据所述匹配程度,确定每个所述文本编码向量所对应词的融合声学特征,包括:
通过所述语音测评模型中的多头注意力机制结构,根据所述匹配程度,确定每个所述文本编码向量所对应词的融合声学特征;
所述基于所述参考文本中词的所述融合声学特征,确定所述待测评语音的测评分值,包括:
通过所述语音测评模型中的解码结构,对所述参考文本中词的所述融合声学特征进行解码,得到所述待测评语音的测评分值。
一种语音测评装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011338974.2/2.html,转载请声明来源钻瓜专利网。