[发明专利]一种基于音素滤波的说话人识别方法有效
申请号: | 202010810083.6 | 申请日: | 2020-08-12 |
公开(公告)号: | CN111951783B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 陈仙红 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L21/0208;G10L25/12;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音素 滤波 说话 识别 方法 | ||
1.一种基于音素滤波的说话人识别方法,其特征在于,分为模型训练阶段和测试阶段,其中模型训练阶段包括语音预处理、音素识别、音素滤波、池化、说话人识别、最小化交叉熵阶段;测试阶段包括语音预处理、音素识别、音素滤波、池化、说话人识别阶段;
所述模型训练阶段,具体包括以下步骤:
1-1)语音预处理
训练语音数据集为(xi,zi)(i=1,…,I),xi为第i条训练语音,zi为第i条训练语音对应的说话人标签;对训练语音xi进行分帧并提取每一帧对应的梅尔倒谱特征表示第i条训练语音第t帧的特征,Ti表示第i条训练语音的总帧数;
1-2)音素识别
根据步骤1-1)提取的梅尔倒谱特征利用音素识别器,识别每一帧语音的音素;其中为第i条训练语音的第t帧对应的音素,N为音素总个数;
1-3)音素滤波
为音素n(n=1,…,N)构建它特有的音素滤波器fn,fn可以是一个深度神经网络,也可以是其他线性或非线性函数,参数为θn;音素滤波器输入为步骤1-1)提取的梅尔倒谱特征输出为滤除音素信息后的特征根据步骤1-2)得到的音素若则选择对应的音素滤波器fn,即:
1-4)池化
将训练语音的所有帧对应的滤除音素信息后的特征进行池化,得到该语音对应的滤除音素信息后的特征的均值,其中,第i条训练语音对应的滤除音素信息后的特征的均值为:
1-5)说话人识别
构建一个说话人识别网络g,q可以是一个深度神经网络,也可以是其他线性或非线性函数,参数为φ,输入为语音滤除音素信息后的特征的均值yi,输出为该语音对应每个说话人的概率z′i=g(yi;φ);
1-6)最小化交叉熵
目标函数为最小化通过模型预测得到训练语音对应的说话人的概率z′i和标签zi之间的交叉熵,即:
通过最小化该目标函数,训练得到每个音素对应的音素滤波器fn(n=1,…,N)的参数θn(n=1,…,N)和说话人识别网络g的参数φ;
模型训练阶段结束,得到每个音素对应的音素滤波器fn和说话人识别网络g;
所述的测试阶段,具体包括以下步骤:
2-1)语音预处理
对测试语音x进行分帧并提取每一帧对应的梅尔倒谱特征xt(t=1,…,T),xt表示测试语音第t帧的特征,T表示测试语音的总帧数;
2-2)音素识别
根据步骤2-1)提取的梅尔倒谱特征xt,利用步骤1-2)所用的音素识别器,识别每一帧语音的音素;qt=1,2,…,N,其中qt为测试语音的第t帧对应的音素,N为音素总个数;
2-3)音素滤波
根据步骤2-2)得到的音素qt,若qt=n,则选择模型训练阶段训练好的音素滤波器fn作为xt的滤波器,测试语音的第t帧特征滤除音素信息后的特征为:yt=fn(xt;θn);
2-4)池化
将测试语音的所有帧对应的滤除音素信息后的特征进行池化,得到测试语音对应的滤除音素信息后的特征的均值,即:
2-5)说话人识别
根据模型训练阶段训练好的深度神经网络g,对测试语音对应的说话人进行识别,得到语音属于各个说话人的概率z′=g(y;φ);
完成测试语音对应的说话人识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010810083.6/1.html,转载请声明来源钻瓜专利网。