[发明专利]一种用于语音可视化的语谱图彩色增强方法无效
申请号: | 200910235643.3 | 申请日: | 2009-10-10 |
公开(公告)号: | CN102044254A | 公开(公告)日: | 2011-05-04 |
发明(设计)人: | 赵胜辉;董欣玮;王晶;匡镜明 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G10L21/06 | 分类号: | G10L21/06 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 张利萍;高燕燕 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 语音 可视化 语谱图 彩色 增强 方法 | ||
技术领域
本发明涉及一种用于语音可视化的语谱图彩色增强方法,属于语音可视化领域。
背景技术
语音是人说话时发出的声音,在人们的日常生活中是不可或缺的。但对于听力障碍者而言,无法通过听觉感知语音,造成正常人难以体会的痛苦。研究表明,在人们对外界的感知过程中,获取信息最多的是视觉,其次才是听觉,而且视觉和听觉的结合比任何单一感官所感知的信息都要多。另外,经验告诉我们,图表是人们表达思想、理解事物最方便、最直观的方法,所以人们也试图从视觉上来感知语音,或者利用视觉和听觉的结合来传递更多的有用信息。本发明的目的就是探索和寻找一种语音的可视化方法,即利用视觉元素来表现语音,达到“通过视觉感知语音”的目的,为听力障碍者理解语音、练习正确发音提供实际帮助。
本发明之前,很多语音可视化方法很多都是基于人脸模型。这种方法对发音口型进行定性或定量的描述。定性描述如圆唇、扁唇、开口的大小,舌位的高低等等。现在许多应用领域需要对视觉语音进行客观上的定量度量,如虚拟人脸合成、机器自动唇读等等。MPEG-4更是定义了人脸动画参数FAP(facialanimation parameter)。FAP参数的优点使它已经成为人脸动画的国际标准。
基于发音器官的运动变化、人脸的表情来实现语音可视化的方法较为人性化,有效剖析了人体的发音过程,有助于听力受损人群练习发音。然而,就其语音可懂度而言,还难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动而准确、有效的感知语音。此外,视觉效果比较单一,表现力不强。
发明内容
本发明为了克服上述缺点,提供一种用于语音可视化的语谱图彩色增强方法,能够利用不同色彩表示语音信号的频谱结构,以图像的方式在视觉上表示语音,无论听力受损人群还是普通人,在一个相对较短的训练之后,都可以分辨出不同发音。
本发明的技术方案是:
一种用于语音可视化的语谱图彩色增强方法,包括以下步骤:
第一步:对原始语音信号分帧、加窗,提取每帧信号在各个特征频带内的短时能量值;
第二步:将语音信号的有效频带平均分为N个特征频带,分别计算每帧语音信号在N个特征频带内的能量值;
其中,m是窗的起点,N是窗长(点数);
第三步:以各个特征频带内的能量值为参数对相应特征频带预先设定的色彩饱和度进行修正;对N个频带内的能量值进行归一化处理;
第四步:利用归一化后的能量值对N特征频带既定色彩的饱和度进行修正;
第五步:将语音信号N个特征频带的修正后的色相、饱和度、亮度利用色彩学转换公式转化为RGB三原色值;
第六步:绘制直方图,横轴为时间轴,以帧为单位,纵轴为1-N,表示相应的N个特征频带,对每帧的N个特征频带进行着色,其色彩为修正饱和度之后所对应的RGB配色。
上述第三步中归一化处理时利用的最大值为第2-第12个频带的能量最大值Em。如果第1个能带的能量大于Em,则直接将其归一化后的数值直接置1,即:
Em=max(E2:E12) (2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910235643.3/2.html,转载请声明来源钻瓜专利网。