[发明专利]一种基于音素滤波的说话人识别方法有效

申请号：	202010810083.6	申请日：	2020-08-12
公开（公告）号：	CN111951783B	公开（公告）日：	2023-08-18
发明（设计）人：	陈仙红	申请（专利权）人：	北京工业大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L21/0208;G10L25/12;G10L25/18;G10L25/24;G10L25/30
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	吴荫芳
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于音素滤波说话识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于音素滤波的说话人识别方法，其特征在于，分为模型训练阶段和测试阶段，其中模型训练阶段包括语音预处理、音素识别、音素滤波、池化、说话人识别、最小化交叉熵阶段；测试阶段包括语音预处理、音素识别、音素滤波、池化、说话人识别阶段；

所述模型训练阶段，具体包括以下步骤：

1-1)语音预处理

训练语音数据集为(xⁱ，zⁱ)(i＝1，…，I)，xⁱ为第i条训练语音，zⁱ为第i条训练语音对应的说话人标签；对训练语音xⁱ进行分帧并提取每一帧对应的梅尔倒谱特征表示第i条训练语音第t帧的特征，T_i表示第i条训练语音的总帧数；

1-2)音素识别

根据步骤1-1)提取的梅尔倒谱特征利用音素识别器，识别每一帧语音的音素；其中为第i条训练语音的第t帧对应的音素，N为音素总个数；

1-3)音素滤波

为音素n(n＝1，…，N)构建它特有的音素滤波器f_n，f_n可以是一个深度神经网络，也可以是其他线性或非线性函数，参数为θ_n；音素滤波器输入为步骤1-1)提取的梅尔倒谱特征输出为滤除音素信息后的特征根据步骤1-2)得到的音素若则选择对应的音素滤波器f_n，即：

1-4)池化

将训练语音的所有帧对应的滤除音素信息后的特征进行池化，得到该语音对应的滤除音素信息后的特征的均值，其中，第i条训练语音对应的滤除音素信息后的特征的均值为：

1-5)说话人识别

构建一个说话人识别网络g，q可以是一个深度神经网络，也可以是其他线性或非线性函数，参数为φ，输入为语音滤除音素信息后的特征的均值yⁱ，输出为该语音对应每个说话人的概率z′_i＝g(y_i；φ)；

1-6)最小化交叉熵

目标函数为最小化通过模型预测得到训练语音对应的说话人的概率z′_i和标签z_i之间的交叉熵，即：

通过最小化该目标函数，训练得到每个音素对应的音素滤波器f_n(n＝1，…，N)的参数θ_n(n＝1，…，N)和说话人识别网络g的参数φ；

模型训练阶段结束，得到每个音素对应的音素滤波器f_n和说话人识别网络g；

所述的测试阶段，具体包括以下步骤：

2-1)语音预处理

对测试语音x进行分帧并提取每一帧对应的梅尔倒谱特征x_t(t＝1，…，T)，x_t表示测试语音第t帧的特征，T表示测试语音的总帧数；

2-2)音素识别

根据步骤2-1)提取的梅尔倒谱特征x_t，利用步骤1-2)所用的音素识别器，识别每一帧语音的音素；q_t＝1，2，…，N，其中q_t为测试语音的第t帧对应的音素，N为音素总个数；

2-3)音素滤波

根据步骤2-2)得到的音素q_t，若q_t＝n，则选择模型训练阶段训练好的音素滤波器f_n作为x_t的滤波器，测试语音的第t帧特征滤除音素信息后的特征为：y_t＝f_n(x_t；θ_n)；

2-4)池化

将测试语音的所有帧对应的滤除音素信息后的特征进行池化，得到测试语音对应的滤除音素信息后的特征的均值，即：

2-5)说话人识别

根据模型训练阶段训练好的深度神经网络g，对测试语音对应的说话人进行识别，得到语音属于各个说话人的概率z′＝g(y；φ)；

完成测试语音对应的说话人识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010810083.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载