[发明专利]一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法有效
申请号: | 201910033836.4 | 申请日: | 2019-01-15 |
公开(公告)号: | CN109903777B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 王武城;李艳雄;刘名乐;张聿晗 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/66 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 元音 空间 衰减 异常 说话 正常 区分 方法 | ||
1.一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,其特征在于,所述的区分方法包括以下步骤:
S1、预处理:读入元音语音样本,并进行预加重、加窗分帧处理;
S2、提取梅尔频率倒谱系数特征:对每一帧语音进行傅里叶变换,利用梅尔滤波器组将傅里叶变换的线性谱转换为梅尔谱,获取每一帧语音的梅尔频率倒谱系数特征;
S3、构建高斯混合模型:为异常说话人和正常说话人的每个元音构建一个高斯混合模型,其中,异常说话人和正常说话人的语音样本包括/a/、/e/、/i/、/o/、/u/的发音,为每个元音构建一个高斯混合模型,并采用期望最大化算法迭代更新高斯混合模型参数,所述的步骤S3包括:
S3.1、对于某组样本的梅尔频率倒谱系数特征C={ct,t=1,2,...,T},ct为第t帧梅尔频率倒谱系数,ct满足独立同分布,C输入高斯混合模型θ的输出概率为:
式中,p(ct|θ)表示ct输入高斯混合模型θ的输出概率;
S3.2、引入隐含变量z,通过期望最大化算法求解θ,对于每个样本,用Qt表示该样本隐含变量z服从某种分布,且满足:
Qt(z)≥0
那么有:
利用Jensen不等式,有:
要使等号成立,必须使A为常数,又由于∑iQt(zi)=1,则∑ip(ct,zk|θ)=A,因此Qt(zk)满足:
S3.3、执行期望最大化算法的E-step,对每个ct计算:Qt(zk),然后执行M-step,调整θ,极大化L(C|θ)的下界:
反复迭代,直至收敛,即可求得最终的参数θ;
S3.4、求解高斯混合模型的参数θ={wk,μk,Σk},则
式中,wk表示权重,uk表示均值,∑k表示方差,且对密度函数取对数,并执行E-step后,得到第k个高斯成分的生成概率:
执行M-step,引入拉格朗日乘子算法,得到参数θ={wk,μk,Σk}为:
S3.5、对于异常说话人或正常说话人的某个元音v,其第k个高斯混合分量的均值矢量表示该元音梅尔频率倒谱系数特征在第k个高斯混合分量上的均值,表示该元音的第k个高斯混合分量所占总体的权重;
S4、计算元音谱空间衰减率:将各个元音高斯混合模型的均值向量拼接成一个行矢量,计算元音谱空间衰减率,其中,所述的元音谱空间衰减率定义为:
式中,r(v)表示待判决元音v的谱空间衰减率,表示待判决元音v的均值行矢量,表示正常说话人元音v的均值行矢量,Av[μp]表示待判决的五个元音的均值行矢量的均值:
Av[μh]表示正常说话人五个元音的均值行矢量的均值:
S5、异常说话人与正常说话人判决:如果说话人测试样本的所有元音谱空间衰减率均值小于设定的阈值,则该说话人为异常说话人,否则为正常说话人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910033836.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于各种回放环境的动态范围控制
- 下一篇:实时演唱评分的方法与系统