[发明专利]一种语音相似度检测方法及装置有效
申请号: | 201710080153.5 | 申请日: | 2017-02-14 |
公开(公告)号: | CN106935248B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 赵志宏;叶生 | 申请(专利权)人: | 广州孩教圈信息科技股份有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/60;G10L25/18;G10L25/24;G10L21/0208 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510000 广东省广州市越*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 相似 检测 方法 装置 | ||
1.一种语音相似度检测方法,其特征在于,包括:
采集语音的音频数据;
对所述语音的音频数据进行预处理;所述预处理具体步骤依次如下:预滤波、高通滤波、低通滤波、采样、量化、语音端点检测处理;
从预处理后的音频数据中提取音频特征参数;所述音频特征参数包括基音轨迹、文本语音匹配相关特征参数、频谱系数和每个音频帧的声音强度;所述每个音频帧的声音强度的提取方法具体包括:
将所述预处理后的音频数据划分为N个音频帧;其中,N≥1;
计算每个音频帧的平均声音强度;
根据所述每个音频帧的平均声音强度,计算所述每个音频帧的声音强度;
其中,所述声音强度的计算公式为Mag(n)为音频帧n的声音强度,AveMag(n)为音频帧n的平均声音强度,Min为所有音频帧中的最小平均声音强度,Max为所有音频帧中的最大平均声音强度;
将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。
2.如权利要求1所述的语音相似度检测方法,其特征在于,所述基音轨迹的提取方法具体包括:
从所述预处理后的音频数据中计算获取基音序列;
从所述基音序列中获取候选拐点;
将曲率值大于预设阈值的候选拐点作为拐点;
获取所有相邻两个拐点的线段,并保存到折线序列中;
计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;
将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。
3.如权利要求1所述的语音相似度检测方法,其特征在于,所述频谱系数包括但不限于:梅尔倒频谱系数或倒傅里叶频谱系数;
所述梅尔倒频谱系数的提取方法具体包括:
将所述预处理后的音频数据等比例划分为至少一个音频帧;
对所述至少一个音频帧进行离散变换和滤波,获得至少一个自然对数;
分别计算所述至少一个自然对数的离散余弦变换,并去除变换后的第一个参数,将剩余的参数作为所述梅尔倒频谱系数。
4.如权利要求1所述的语音相似度检测方法,其特征在于,所述计算每个音频帧的平均声音强度,具体计算方式如下:
其中,AveMag(n)为音频帧n的平均声音强度,M为音频帧n的采样点个数,Sn(m)为音频帧n中的采样点m的信号幅度值。
5.如权利要求2所述的语音相似度检测方法,其特征在于,在所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比之前,还包括:
采用平移公式,对提取的所述基音轨迹进行线性平移;
所述平移公式如下:
其中,f′2(x)为所述预处理后的音频数据平移后的基音轨迹,f2(x)为从所述预处理后的音频数据中提取的基音轨迹,f1(k)为原始音频的基音轨迹,N为基音轨迹的长度。
6.如权利要求1所述的语音相似度检测方法,其特征在于,所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度,具体包括:
根据所述语音的音频特征参数和所述原始音频的音频特征参数,计算所述语音与所述原始音频之间的相关系数;
根据所述相关系数,获取所述语音与所述原始音频之间的相似度;
其中,所述相关系数包括欧式距离、皮尔森相关系数或似然分数值;
其中,所述欧式距离的计算公式如下:
其中,D为语音与原始音频之间的欧氏距离,Amn为M×N的第一矩阵,Bmn为M×N的第二矩阵。
7.如权利要求1至6任一项所述的语音相似度检测方法,其特征在于,在所述获取所述语音与所述原始音频之间的相似度之后,还包括:
根据所述语音与所述原始音频之间的相似度,计算所述语音的得分。
8.一种语音相似度检测装置,其特征在于,包括:
采集模块,用于采集语音的音频数据;
预处理模块,用于将音频数据经过预滤波、高通滤波、低通滤波、采样、量化、语音端点检测处理获得预处理后的音频数据;
参数提取模块,用于从所述预处理后的音频数据中提取音频特征参数;所述音频特征参数包括基音轨迹、文本语音匹配相关特征参数、频谱系数和每个音频帧的声音强度;所述参数提取模块具体包括:音频帧划分单元,用于将所述预处理后的音频数据划分为N个音频帧;其中,N≥1;计算单元,用于计算每个音频帧的平均声音强度;以及,声音强度获取单元,用于根据所述每个音频帧的平均声音强度,计算所述每个音频帧的声音强度;其中,所述声音强度的计算公式为Mag(n)为音频帧n的声音强度,AveMag(n)为音频帧n的平均声音强度,Min为所有音频帧中的最小平均声音强度,Max为所有音频帧中的最大平均声音强度;
对比模块,用于将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州孩教圈信息科技股份有限公司,未经广州孩教圈信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710080153.5/1.html,转载请声明来源钻瓜专利网。