[发明专利]一种用于语音可视化的语谱图彩色增强方法无效

申请号：	200910235643.3	申请日：	2009-10-10
公开（公告）号：	CN102044254A	公开（公告）日：	2011-05-04
发明（设计）人：	赵胜辉;董欣玮;王晶;匡镜明	申请（专利权）人：	北京理工大学
主分类号：	G10L21/06	分类号：	G10L21/06
代理公司：	北京理工大学专利中心 11120	代理人：	张利萍;高燕燕
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于语音可视化语谱图彩色增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种用于语音可视化的语谱图彩色增强方法，属于语音可视化领域。

背景技术

语音是人说话时发出的声音，在人们的日常生活中是不可或缺的。但对于听力障碍者而言，无法通过听觉感知语音，造成正常人难以体会的痛苦。研究表明，在人们对外界的感知过程中，获取信息最多的是视觉，其次才是听觉，而且视觉和听觉的结合比任何单一感官所感知的信息都要多。另外，经验告诉我们，图表是人们表达思想、理解事物最方便、最直观的方法，所以人们也试图从视觉上来感知语音，或者利用视觉和听觉的结合来传递更多的有用信息。本发明的目的就是探索和寻找一种语音的可视化方法，即利用视觉元素来表现语音，达到“通过视觉感知语音”的目的，为听力障碍者理解语音、练习正确发音提供实际帮助。

本发明之前，很多语音可视化方法很多都是基于人脸模型。这种方法对发音口型进行定性或定量的描述。定性描述如圆唇、扁唇、开口的大小，舌位的高低等等。现在许多应用领域需要对视觉语音进行客观上的定量度量，如虚拟人脸合成、机器自动唇读等等。MPEG-4更是定义了人脸动画参数FAP(facialanimation parameter)。FAP参数的优点使它已经成为人脸动画的国际标准。

基于发音器官的运动变化、人脸的表情来实现语音可视化的方法较为人性化，有效剖析了人体的发音过程，有助于听力受损人群练习发音。然而，就其语音可懂度而言，还难以达到理想效果，除极少数专家以外，人们很难直接通过观察发音器官的运动而准确、有效的感知语音。此外，视觉效果比较单一，表现力不强。

发明内容

本发明为了克服上述缺点，提供一种用于语音可视化的语谱图彩色增强方法，能够利用不同色彩表示语音信号的频谱结构，以图像的方式在视觉上表示语音，无论听力受损人群还是普通人，在一个相对较短的训练之后，都可以分辨出不同发音。

本发明的技术方案是：

一种用于语音可视化的语谱图彩色增强方法，包括以下步骤：

第一步：对原始语音信号分帧、加窗，提取每帧信号在各个特征频带内的短时能量值；

第二步：将语音信号的有效频带平均分为N个特征频带，分别计算每帧语音信号在N个特征频带内的能量值；

Em=Σn=mm+N-1sw2(n)---(1)]]>