[发明专利]一种时域单通道多说话人语音识别方法与系统有效

申请号：	202010061565.6	申请日：	2020-01-19
公开（公告）号：	CN111243579B	公开（公告）日：	2022-10-14
发明（设计）人：	黄露;杨毅;孙甲松	申请（专利权）人：	清华大学
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/02;G10L21/0208
代理公司：	西安智大知识产权代理事务所 61215	代理人：	段俊涛
地址：	100084 北京市海淀区1***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种时域通道说话人语识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种时域单通道多说话人语音识别方法，其特征在于，包括如下步骤：

步骤1，将混合语音的原始波形送入一维卷积网络初步提取特征，然后送入分离网络BSRU，输出原始波形分离后的特征表示；

步骤2，将原始波形分离后的特征表示分别送入两个全连接层，输出两个声学状态分布向量；

步骤3，将所述两个声学状态分布向量参考强制对齐获得的标注信息，通过交叉打分和阈值选择的方式获得两种排序下的较小的误差，并作为神经网络反向传播的误差，构建时域单通道多说话人语音识别模型；方法如下：

首先，采用强制对齐方法，从已有的目标语音标注中获得相应的标注信息；随后，在两个说话人的情况下，采用多次交叉打分的方法，即分别考虑两种情况下的误差LR₁和LR₂：

LR₁＝LR₁₁+L_R22

LR₂＝LR₁₂+LR₂₁

其中LR_ij表示分离网络第i个输出和第j个目标人干净语音强制对齐标签之间的交叉熵误差，i＝1,2,j＝1,2；

计算LR₁₁，如果LR₁₁小于一个预先设定的阈值，则计算LR₂₂，并将LR₁作为两种排序下较小的一个误差；如果LR₁₁大于该阈值，则计算LR₁₂和LR₂₁，将LR₂作为两种排序下较小的一个误差；

步骤4，利用所述时域单通道多说话人语音识别模型，实现多说话人语音识别。

2.根据权利要求1所述时域单通道多说话人语音识别方法，其特征在于，所述步骤1中，一维卷积网络为一层或多层，对于多层的一维卷积网络，每一层的参数包括卷积核个数、卷积核长度、最大值池化大小和步长；对于一层的一维卷积网络，则将卷积核的长度设置为一帧语音的采样点数；多层的一维卷积网络有池化操作，一层的一维卷积网络没有池化操作；每一层卷积的输出均通过批量归一化进行规整，以提高泛化性和训练速度，最后一层所有通道的向量拼接在一起被当作学习到的时域波形的特征表示。

3.根据权利要求1所述时域单通道多说话人语音识别方法，其特征在于，所述步骤1中，分离网络BSRU为双向的SRU，SRU计算方式如下：

f_t＝σ(W_fx_t+v_f⊙c_t-1+b_f)

c_t＝f_t⊙c_t-1+(1-f_t)⊙(Wx_t)

r_t＝σ(W_rx_t+v_r⊙c_t-1+b_r)

h_t＝r_t⊙c_t+(1-r_t)⊙x_t

其中W、W_r、W_f是权重矩阵，v_f、b_f、v_r、b_r是参数向量；x_t和h_t是当前输入与输出；c_t是t时刻cell的状态值，用于保存历史信息，c_t-1是t-1时刻cell的状态值；f_t和r_t分别代表忘记门和重置门；σ是sigmod函数；⊙表示两个向量的元素对应相乘。