[发明专利]一种可实现语音重构的彩色复语谱图构建方法有效

申请号：	201410688088.0	申请日：	2014-11-26
公开（公告）号：	CN104392728A	公开（公告）日：	2015-03-04
发明（设计）人：	王双维;李广岩;梁士利;王春蕾;曹晓林;郑彩侠	申请（专利权）人：	东北师范大学
主分类号：	G10L21/06	分类号：	G10L21/06
代理公司：	长春市东师专利事务所 22202	代理人：	刘延军;李荣武
地址：	130024 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实现语音彩色复语谱图构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于语音信号处理领域，涉及一种可实现语音重构的可视化彩色语谱图构建方法。

背景技术

语谱图作为语音分析和语音学的有利工具，它是研究语音信息的一种可读符号系统。它将密切相关的时域与频域特征及其相互关系同时展现出来，这是单纯的时域信号或频域信号以及两种信号的简单并列所做不到的。所以，语谱图所承载的信息量远远大于单纯时域信号和单纯频域信号承载信息量的总和。近期，可见研究包括利用图像处理技术进行纹理特征提取，结合其后的分类器实现特定人特定词汇的语音身份鉴别确认；利用语谱图纹理进行背景音乐下的歌声识别；基于语谱图局部梯度计算进行语音识别等。北京理工大学赵胜辉等提出了“一种用于语音可视化的语谱图彩色增强方法”，并获专利授权（200910235643.3）。

但在以往研究中，语谱图大多数作为直观显示语谱特征而存在的，实际分析的数据源仍然是原有的语音信号数据而不是语谱图本身。特别是由于语谱图是对语音幅频特性的可视化表达，缺乏相位信息，因而无法基于语谱图进行语音重构。彩色语谱图虽然基于三个色彩通道，但它是灰度语谱图的伪彩色图像，并没有因为色彩而增加信息维度。

发明内容

（一）要解决的技术问题

本发明的目的，是要提供一种可实现语音重构的可视化彩色语谱图构建方法，能够利用RGB彩色模型中的R通道和B通道分别代表语音时频分析的实部和虚部，RGB彩色模型中的G通道标志语音时频分析的实部和虚部符号组合，形成具有三维信息结构的复语谱图。这种语谱图可以通过提取R通道和B通道数据而获得语音时频分析的实部大小和虚部大小，通过G通道解码分别获得实部和虚部的符号，生成语音时频分析复数矩阵，进而通过傅里叶逆变换实现语音重构。

本发明不限于人类语音的分解与重构，也不限于音频范围（20Hz～20kHz）的声音信号。

（二）技术方案

为达到上述目的，本发明采用以下方案：

1、对原始语音信号加窗分帧，形成语音信号分帧N×M矩阵，矩阵行数N为每帧信号点数，矩阵列数N为原语音信号分帧的帧数；

2、对信号分帧矩阵中的各列进行N点DFT，其中第i列结果为：

（1）

且

（2）

其中，为矩阵中第n行、第i列元素，为的实部，为的虚部；为N×M复数矩阵，矩阵元素

（3）

且

，（4）