[发明专利]一种可实现语音重构的彩色复语谱图构建方法有效
申请号: | 201410688088.0 | 申请日: | 2014-11-26 |
公开(公告)号: | CN104392728A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 王双维;李广岩;梁士利;王春蕾;曹晓林;郑彩侠 | 申请(专利权)人: | 东北师范大学 |
主分类号: | G10L21/06 | 分类号: | G10L21/06 |
代理公司: | 长春市东师专利事务所 22202 | 代理人: | 刘延军;李荣武 |
地址: | 130024 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 语音 彩色 复语谱图 构建 方法 | ||
技术领域
本发明属于语音信号处理领域,涉及一种可实现语音重构的可视化彩色语谱图构建方法。
背景技术
语谱图作为语音分析和语音学的有利工具,它是研究语音信息的一种可读符号系统。它将密切相关的时域与频域特征及其相互关系同时展现出来,这是单纯的时域信号或频域信号以及两种信号的简单并列所做不到的。所以,语谱图所承载的信息量远远大于单纯时域信号和单纯频域信号承载信息量的总和。近期,可见研究包括利用图像处理技术进行纹理特征提取,结合其后的分类器实现特定人特定词汇的语音身份鉴别确认;利用语谱图纹理进行背景音乐下的歌声识别;基于语谱图局部梯度计算进行语音识别等。北京理工大学赵胜辉等提出了“一种用于语音可视化的语谱图彩色增强方法”,并获专利授权(200910235643.3)。
但在以往研究中,语谱图大多数作为直观显示语谱特征而存在的,实际分析的数据源仍然是原有的语音信号数据而不是语谱图本身。特别是由于语谱图是对语音幅频特性的可视化表达,缺乏相位信息,因而无法基于语谱图进行语音重构。彩色语谱图虽然基于三个色彩通道,但它是灰度语谱图的伪彩色图像,并没有因为色彩而增加信息维度。
发明内容
(一)要解决的技术问题
本发明的目的,是要提供一种可实现语音重构的可视化彩色语谱图构建方法,能够利用RGB彩色模型中的R通道和B通道分别代表语音时频分析的实部和虚部,RGB彩色模型中的G通道标志语音时频分析的实部和虚部符号组合,形成具有三维信息结构的复语谱图。这种语谱图可以通过提取R通道和B通道数据而获得语音时频分析的实部大小和虚部大小,通过G通道解码分别获得实部和虚部的符号,生成语音时频分析复数矩阵,进而通过傅里叶逆变换实现语音重构。
本发明不限于人类语音的分解与重构,也不限于音频范围(20Hz~20kHz)的声音信号。
(二)技术方案
为达到上述目的,本发明采用以下方案:
1、对原始语音信号加窗分帧,形成语音信号分帧N×M矩阵 ,矩阵行数N为每帧信号点数,矩阵列数N为原语音信号分帧的帧数;
2、对信号分帧矩阵中的各列进行N点DFT,其中第i列结果为:
(1)
且
(2)
其中,为矩阵中第n行、第i列元素,为的实部,为的虚部;为N×M复数矩阵,矩阵元素
(3)
且
, (4)
有
(5)
3、将复数矩阵分解为实部和虚部两个子矩阵,取其绝对值并使数据归一化,使其数据动态范围在0~1之间;
4、构造符号编码矩阵,复数矩阵的实部和虚部分别为+、-和0时,共有9种组合。本发明用9个数值标志这9种组合,以保留原复数矩阵实部和虚部的符号信息;
5、构造一个3维矩阵,实部子矩阵归一化后作为层数维的第1层,虚部子矩阵归一化后作为层数维的第3层,符号编码矩阵作为层数维的第2层;
6、将3维矩阵作为RGB彩色模型的驱动矩阵,形成红色和蓝色二原色构成的复语谱图。其中实部子矩阵对应红色通道R,虚部子矩阵对应蓝色通道B, 符号编码矩阵作对应绿色通道G;
7、语音重构过程:分别提取R通道、B通道数据和G通道数据,将G通道解码得到实部与虚部的符号并赋给提取的R通道和B通道,由这两个矩阵构造出复数矩阵,获得归一化的语音时频分析数据。进行傅里叶逆变换得到语音信号分帧矩阵,解除分帧形成语音序列,实现语音重构。
本发明的用途与优越性(有益效果)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北师范大学,未经东北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410688088.0/2.html,转载请声明来源钻瓜专利网。