[发明专利]一种基于深度神经网络的双视角单通道语音分离方法有效

申请号：	202010506069.7	申请日：	2020-06-05
公开（公告）号：	CN111724806B	公开（公告）日：	2022-09-06
发明（设计）人：	丁彩英;刘松华;贾宏恩;李付江;王洋;王亚姣;相洁	申请（专利权）人：	太原理工大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L25/30
代理公司：	太原晋科知识产权代理事务所(特殊普通合伙) 14110	代理人：	任林芳
地址：	030024 ***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度神经网络视角通道语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度神经网络的双视角单通道语音分离方法，其特征在于，包括步骤：

获取相关的语料库，包括单个纯净的说话人语音、多说话人的混合语音，并进行预处理；

对预处理后的语音数据进行混合语音多空间投影训练，实现对混合语音数据的投影分离；

对投影分离后的语音数据进行分离语音类掩膜映射训练，分离出两个说话人的语音数据；

对预处理后的语音数据进行混合语音多空间投影训练的步骤包括：

使用公式(1)构建输入混合语音数据的稀疏网络，减少参数的相互依存关系，缓减过拟合，使用公式(2)编码非线性表达，避免前一层丢失过小的特征；

其中，公式(1)表示为：

y₁＝σ₁(w₁x+b₁) (1)

式中，x表示混合语音信号，w₁表示权重，b₁表示偏置，σ₁表示激活函数；y₁为该层输出；

公式(2)表示为：

y₂＝σ₂(w₂y₁+b₂) (2)

式中，y₁表示前一层输出，w₂表示权重，b₂表示偏置，σ₂示激活函数，通过计算获取该层输出y₂；

利用前一层输入，将投影空间分为两部分，从对应投影空间观察输入混合语音数据，利用投影空间的正交特性保证不同混合语音数据的可区分性；

处理两个说话人，则使用公式(3)、(4)进行处理：

y₃₁＝w₃y₂ (3)

y₃₂＝(1-w₃)y₂ (4)

公式(3)和(4)中，w₃表示输入混合语音数据的权重，确保不同的说话人在不同空间表达不同，y₃₁，y₃₂分别表示区别化处理过程输出；

将不同空间表达的信号y₃₁，y₃₂输入网络：

s₁＝σ₁(w₄₁y₃₁+b₄₁) (5)

s₂＝σ₁(w₄₂y₃₂+b₄₂) (6)

公式(5)和(6)中，s₁，s₂分别表示说话人1和2的输出的投影分离后的语音数据，w₄₁，w₄₂表示不同投影空间的基向量组成的矩阵；

设计约束误差view1_err并使其接近于0，使得不同说话人在不同的特征空间表达，其计算公式如下：

对投影分离后的语音数据进行分离语音类掩膜映射训练，分离出两个说话人的语音数据包括步骤：

设计分离语音类掩膜映射器，确保有效增强目标语音并抑制干扰语音，其采用的类掩膜映射器设计如公式(8)所示：

公式(8)中，∈为一个接近0的极小值，t₁，t₂为类似标签信息的矩阵，确保每一个神经元只被一个说话人的状态激活；

分离出的两个说话人语音分别为：

分离出两个说话人的语音数据的步骤之后，还包括步骤：

由前述实例分离出的语音合并为新的混合语音，如公式(10)所示：

设y为输入混合语音，计算还原语音与原始混合语音之间的均方误差，优化器设置为如公式(11)所示：

统计混合语音分离结果的各项技术指标。

2.根据权利要求1所述的基于深度神经网络的双视角单通道语音分离方法，其特征在于，对初始语音数据进行预处理的步骤包括：

下载使用公认的公开混合语音或者纯净语音，检查语音数据的完整性，根据使用提示或者可考证文献的方法对数据进行清洗；

从不同的说话人中随机抽取2个说话人，并在对应的语料中随机抽取部分生成训练混合语音，剩余的作为测试混合语音，生成方式采用随机混合的方法，参考John R.Hershey提供的开源工具，混合语音数据的信噪比设定为-2.5到2.5DB；

频域分离：对混合语音数据进行帧长为256、帧移为128的短时傅里叶变换，分析窗为汉宁窗，将短时傅里叶输出的绝对值作为混合语音数据的幅度谱；

时域分离：将混合语音数据划分为帧长为129的短信号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于太原理工大学，未经太原理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010506069.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种提高钛合金线材旋锻成材率的方法
下一篇：一种风扇运行异常的监控方法、电路和装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度神经网络的双视角单通道语音分离方法有效

专利文献下载