[发明专利]自组织麦克风阵列下基于注意力的多通道说话人确认方法在审

申请号：	202110843196.0	申请日：	2021-07-26
公开（公告）号：	CN113643710A	公开（公告）日：	2021-11-12
发明（设计）人：	张晓雷;梁成栋;姚嘉迪	申请（专利权）人：	西北工业大学;西北工业大学深圳研究院
主分类号：	G10L17/22	分类号：	G10L17/22;G10L17/18;G06N3/04;G06N3/08
代理公司：	西北工业大学专利中心 61204	代理人：	金凤
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	组织麦克风阵列基于注意力通道说话确认方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种自组织麦克风阵列下基于注意力的多通道说话人确认方法，其特征在于，包括以下步骤：

步骤1：构建单通道说话人确认系统；

所述单通道说话人确认系统网络结构包括三部分：前端残差卷积神经网络ResNet、自注意力池化SAP层和全连接层；ResNet将原始特征转换为高级抽象表示，接在ResNet后的SAP层输出单个句子级表示，之后，全连接层将单个句子级表示处理为句子级说话人嵌入；单通道说话人确认系统采用端到端的方式和角度原型损失函数进行联合优化；

步骤2：构建多通道说话人确认系统；

所述多通道说话人确认系统是在C个并行的单通道系统的SAP层之后设置多个级联的基于残差自注意力的通道间处理层和全局融合层，在全局融合层后设置全连接层；

步骤2-1：基于残差自注意力的通道间处理层；

所述多个级联的基于残差自注意力的通道间处理层的输入为C个并行的单通道系统的SAP层输出的句子级表示，输出为通道加权的句子级表示；

用X＝[x₁，…，x_C]表示通道间处理层的输入，其中表示第c个通道的句子级别特征，其中C表示通道数，d表示特征维数；

假设自注意力的注意力头个数为h，对于每一个注意力头，输入特征X分别转换为维度E的查询矩阵、键矩阵、值矩阵，如式(1)所示：

其中，d_k＝E/h，i表示第i个注意力头；矩阵Q、K、V分别表示查询矩阵、键矩阵、值矩阵，都属于域为模型参数；

在每个注意力头中，通过将查询矩阵和键矩阵相乘得到跨通道相似度矩阵；将softmax矩阵用Sparsemax算子替换，应用到跨通道相似度矩阵的每一列获得注意力矩阵

其中，prev表示来自前一个通道处理层的注意力得分；

再将值矩阵Vⁱ乘以注意力矩阵得到第i个注意力头的输出Hⁱ：

Hⁱ＝Aⁱ·Vⁱ (3)

将Hⁱ进行连接，得到注意力层的输出Z：