[发明专利]基于共振峰频率的汉语普通话单韵母语音可视化方法无效
申请号: | 200910235647.1 | 申请日: | 2009-10-10 |
公开(公告)号: | CN102176313A | 公开(公告)日: | 2011-09-07 |
发明(设计)人: | 赵胜辉;董欣玮;王晶;匡镜明 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G10L21/06 | 分类号: | G10L21/06 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 张利萍;高燕燕 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 共振 频率 汉语 普通话 韵母 语音 可视化 方法 | ||
技术领域
本发明涉及一种汉语普通话单韵母语音可视化方法,特别是一种基于共振峰频率的汉语普通话单韵母语音可视化方法,属于语音可视化领域。
背景技术
语音是人说话时发出的声音,在人们的日常生活中是不可或缺的。但对于听力障碍者而言,无法通过听觉感知语音,造成正常人难以体会的痛苦。研究表明,在人们对外界的感知过程中,获取信息最多的是视觉,其次才是听觉,而且视觉和听觉的结合比任何单一感官所感知的信息都要多。另外,经验告诉我们,图表是人们表达思想、理解事物最方便、最直观的方法,所以人们也试图从视觉上来感知语音,或者利用视觉和听觉的结合来传递更多的有用信息。本发明的目的就是探索和寻找一种语音的可视化方法,即利用视觉元素来表现语音,达到“通过视觉感知语音”的目的,为听力障碍者理解语音、练习正确发音提供实际帮助。
本发明之前,发明语音可视化方法很多都是基于人脸模型。这种方法对发音口型进行定性或定量的描述。定性描述如圆唇、扁唇、开口的大小,舌位的高低等等。现在许多应用领域需要对视觉语音进行客观上的定量度量,如虚拟人脸合成、机器自动唇读等等。MPEG-4更是定义了人脸动画参数FAP(facialanimation parameter)。FAP参数的优点使它已经成为人脸动画的国际标准。
基于发音器官的运动变化、人脸的表情来实现语音可视化的方法较为人性化,有效剖析了人体的发音过程,有助于听力受损人群练习发音。然而,就其 语音可懂度而言,还难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动而准确、有效的感知语音。此外,视觉效果比较单一,表现力不强。
发明内容
本发明的目的在于提供一种基于共振峰频率的汉语普通话单韵母语音可视化方法,能够将不同语音特征整合为单一图像,使图像具有可读性,直观地读出连续讲话的语音序列。
本发明的技术方案是:一种基于共振峰频率的汉语普通话单韵母语音可视化方法,包括以下步骤:
第一步:对原始语音信号分帧、加窗,提取每帧信号的短时能量、共振峰频率、基音频率;
第二步:采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误;
第三步:利用共振峰频率将不同发音映射为不同色彩方面,采用以下公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910235647.1/2.html,转载请声明来源钻瓜专利网。