[发明专利]一种基于MFCC相似矩阵的语音音乐分离方法有效
申请号: | 202011161333.4 | 申请日: | 2020-10-27 |
公开(公告)号: | CN112562726B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 龙华;王延凯;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/51;G10L25/81 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 王月松 |
地址: | 650500 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mfcc 相似 矩阵 语音 音乐 分离 方法 | ||
本发明公开了一种基于MFCC相似矩阵的语音音乐分离方法,属于语音音频处理领域。传统的语音参数一般为39维MFCC参数。在带背景音乐的讲话环境下,说话人的语音信息在相邻帧之间是不连续的,而背景音乐的相邻帧之间的语音信息变化是连续且缓慢的。该方法在此规律的基础上,对39维MFCC参数求解相似矩阵SMFCC,获取语音相邻帧之间的相关性,根据统计规律区分出讲话语音段和纯背景音乐段并将其切割分离,然后分别将背景音乐段和语音段输入7层双向LSTM神经网络进行数据分离,最后再对分离的数据进行整合,得到分离的说话人声音和背景音乐声音。经过测试,该方法可以提高整体的语音段和非语音段的识别准确率,且运算速度快、计算量较小。
技术领域
本发明涉及一种基于MFCC相似矩阵的语音音乐分离方法,本发明属于音频信号处理技术领域。
背景技术
近年来语音识别得到了迅速发展,在国际化浪潮以及多民族和多文化的相互交织的大背景下,语音识别越来越受到人们的关注。一直以来,语音分离在音视频领域一直是一个比较重要的研究话题,尤其是在含有背景音乐环境下的人话分离,也一直是一个难点。随着研究的不断深入,语音识别、语音信号处理也取得了不少进展,但是在复杂背景音乐环境下的分析、研究还很局限,且分离后的效果也有待提升。
发明内容
本发明要解决的技术问题在于提出一种基于MFCC相似矩阵的语音、音乐区分方法,引入MFCC相似矩阵、构造矩阵,得到每条语音数据帧与帧之间的关联矩阵,通过柱形图对统计结果进行分析,返回区分的音乐段和讲话段,然后将其转换成时间刻度,将标注后的语音信息,输入到7层双向LSTM神经网络(Bi-LSTM)分离模型,分别将讲话段分离为说话者声音+背景音乐1,将音乐段分离为静音+背景音乐2,最后再将分离的说话者声音+静音整合到一起形成分离出来的说话人语音信息,将背景音乐1+背景音乐2整合到一起形成分离出来的背景音乐信息。此方法通过仿真软件对语音样本进行测试,达到了较好的区分结果。为解决上述技术问题,本发明采用如下技术方案;一种基于MFCC相似矩阵的语音音乐分离方法。
附图说明
图1是本发明流程图
图2是三种不同情况下的MFCC相似矩阵图
图3是相似矩阵SMFCC1
图4是相似矩阵SMFCC2
图5是语音文件的频率分布直方图
图6是音频标注流程图
图7是分离模型的网络结构图
图8是本发明详细流程图
具体实施方式
S1.测试音频数据的获取:
使用在喜马拉雅电台下载的任意几段带有背景音乐的说话人的语音文件,使用adobe audition软件将语音文件转码为wav文件,采样率为16k,双声道数据。
S2.提取语音信号的MFCC参数:
其步骤包括预加重、分帧、加窗、FFT变换、梅尔滤波器组、对数变换、DCT、动态差分参数。
S2.1预加重:
为了避免在做FFT变换的时候出现数值问题,需要加强一下高频信息,因为一般高频能量比低频小;
S2.2分帧:
为了保证帧与帧之间的平滑,一般我们设置每一帧的前N个采样点数据与前一帧的后N个采样点数据一致,也就是帧移的概念,帧的长度一般设置为10ms-25ms,测试音频采用的帧长为1024,帧移为512;
S2.3加窗:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011161333.4/2.html,转载请声明来源钻瓜专利网。