[发明专利]重音检测方法及装置、非瞬时性存储介质有效
申请号: | 202010389701.4 | 申请日: | 2020-05-11 |
公开(公告)号: | CN111292763B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 高兴龙;李悦;瞿炜 | 申请(专利权)人: | 新东方教育科技集团有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27;G10L25/78;G10L25/93 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 彭久云 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重音 检测 方法 装置 瞬时 存储 介质 | ||
1.一种重音检测方法,包括:
获取单词的音频数据;
提取所述音频数据的韵律特征,以得到韵律特征向量;
基于所述音频数据生成语谱图,以得到语谱特征矩阵;
分别对所述韵律特征向量和所述语谱特征矩阵进行均值方差归一化处理,以分别得到均值方差归一化的韵律特征向量和包括多个频率特征向量的均值方差归一化的语谱特征矩阵,对所述均值方差归一化的韵律特征向量和所述均值方差归一化的语谱特征矩阵进行拼接操作,以得到第一特征矩阵,并对所述第一特征矩阵进行去冗余操作,以得到第二特征矩阵;以及
通过分类器对所述第二特征矩阵进行分类处理,以得到所述音频数据的重音检测结果;其中,
基于所述音频数据生成所述语谱图,以得到所述语谱特征矩阵,包括:
基于所述单词和所述音频数据,确定所述单词对应的所述音频数据中的发音段,
对所述音频数据中的发音段依次进行分帧、频域变换和巴克域变换,以得到所述语谱图,
基于所述语谱图,在预定的巴克域频带范围内提取原始语谱特征矩阵,以及
对所述原始语谱特征矩阵进行维度变换操作,以得到所述语谱特征矩阵;
对所述均值方差归一化的韵律特征向量和所述均值方差归一化的语谱特征矩阵进行拼接操作,以得到所述第一特征矩阵,包括:
对所述均值方差归一化的韵律特征向量进行维度变换操作,以得到第一特征向量,其中,所述第一特征向量的维度与所述均值方差归一化的语谱特征矩阵中的任一频率特征向量的维度相同,以及,将所述第一特征向量与所述均值方差归一化的语谱特征矩阵进行拼接,以得到所述第一特征矩阵,其中,所述第一特征矩阵包括所述第一特征向量和所述均值方差归一化的语谱特征矩阵中的全部频率特征向量;或者,
将所述均值方差归一化的韵律特征向量分别与所述均值方差归一化的语谱特征矩阵中的每个频率特征向量进行拼接,以得到所述第一特征矩阵。
2.根据权利要求1所述的重音检测方法,其中,在所述第一特征矩阵包括所述第一特征向量和所述均值方差归一化的语谱特征矩阵中的全部频率特征向量的情况下,对所述第一特征矩阵进行所述去冗余操作,以得到所述第二特征矩阵,包括:
计算所述第一特征矩阵中的所述第一特征向量与所述第一特征矩阵中的各个频率特征向量的各个余弦相似度;以及
响应于所述各个余弦相似度中的任一余弦相似度大于第一预设值,将所述任一余弦相似度对应的所述第一特征矩阵中的频率特征向量设置为全零向量或者将所述任一余弦相似度对应的所述第一特征矩阵中的频率特征向量从所述第一特征矩阵中删除,以得到所述第二特征矩阵。
3.根据权利要求1所述的重音检测方法,其中,在将所述均值方差归一化的韵律特征向量分别与所述均值方差归一化的语谱特征矩阵中的每个频率特征向量进行拼接以得到所述第一特征矩阵的情况下,对所述第一特征矩阵进行所述去冗余操作,以得到所述第二特征矩阵,包括:
获取第一权重矩阵;
使用所述第一权重矩阵对所述第一特征矩阵进行处理,以得到降维矩阵,其中,所述降维矩阵的维度小于所述第一特征矩阵的维度;
对所述降维矩阵进行维度变换操作,以得到第一中间特征矩阵,其中,所述第一中间特征矩阵的维度与所述第一特征矩阵的维度相同;
将所述第一中间特征矩阵中的各个元素转换到预设区间,以得到第二中间特征矩阵;以及
响应于所述第二中间特征矩阵中的任一元素小于第二预设值,将所述第二中间特征矩阵中的所述任一元素设置为零,以得到所述第二特征矩阵。
4.根据权利要求1-3任一项所述的重音检测方法,其中,提取所述音频数据的韵律特征,以得到所述韵律特征向量,包括:
确定所述单词对应的单词时长高斯混合模型;以及
基于所述单词对应的单词时长高斯混合模型,提取所述音频数据对应的单词时长似然度;
其中,所述韵律特征向量的元素包括所述音频数据对应的所述单词时长似然度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新东方教育科技集团有限公司,未经新东方教育科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010389701.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于Bert的语言模型的训练方法及装置
- 下一篇:一种清理机和生产线