[发明专利]一种自动调节的咽腔电子喉语音通讯系统及方法有效
申请号: | 200910020897.3 | 申请日: | 2009-01-14 |
公开(公告)号: | CN101474104A | 公开(公告)日: | 2009-07-08 |
发明(设计)人: | 万明习;吴亮;王素品;吴辉雄;刘菲;翟健东 | 申请(专利权)人: | 西安交通大学 |
主分类号: | A61F2/50 | 分类号: | A61F2/50;A61F2/70;G06K9/00;G06K9/62;G10L15/24 |
代理公司: | 西安通大专利代理有限责任公司 | 代理人: | 徐文权 |
地址: | 710049*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 调节 电子 语音 通讯 系统 方法 | ||
技术领域
本发明属于病变语音重建及语音通讯技术领域,特别涉及一种可以自动调节的咽腔电子喉语音通讯系统。
背景技术
我国每年都有大量患者因喉切除而失去发声能力,而现有技术中的电子喉以其适用范围广、操作简单、可长时间发声且易于理解而被广泛使用。但是目前的电子喉语音不自然,使用起来不方便,而且带有很大成分的辐射背景噪声和环境噪声,严重影响了语音的理解和悦耳程度。
目前国内外使用的电子喉主要是颈外式,工作原理是波形发生器提供声门嗓音源波形,用以驱动换能器振动,但是使用时电子喉的施加位置并非在声门处,而是颈部两侧咽腔部位,这使得声门与咽腔之间的声道作用被忽略而造成重建语音的失真,影响了电子喉语音的使用。
如何改善电子喉语音,满足嗓音源频率和按语音和语言需要自动调节的要求,是近些年国内外学者研究的热点。目前有运用指头施加在压阻组件上的压力来实现对电子喉的振荡频率的调节,也有通过控制呼气量和声带紧张程度来调节语音的频率和强度的电子喉,还有美国哈佛大学的E.A.Goldstein等于2004年研究提出用颈前肌电信号特征来控制电子喉开关的方法,取得了较好的结果。然而这几种方法都存在使用困难、训练方法复杂、成本高的缺点。
随着计算机和网络技术的发展与普及,电子喉的发展也需要满足网络化的需求,而目前专门适合于网络通讯的电子喉还没有相关报导。
发明内容
针对上述现有技术电子喉的应用中存在的使用困难、训练方法复杂、成本高的缺点,本发明提供一种可自动调节的咽腔电子喉语音通讯系统及方法,该系统以计算机硬件系统为主,通过软件开发实现了基于面部和颈部运动特征自动调节的咽腔嗓音源合成,电子喉无需手持,使用便捷,同时集成了咽腔电子喉重建语音的增强处理功能,并通过互联网技术实现了电子喉语音的网络实时通讯,进一步拓展了电子喉的功能。
一种自动调节的咽腔电子喉语音通讯系统,包括电子喉振荡器,音视频采集模块与计算机软硬件系统,音视频采集模块包括麦克风、摄像头,摄像头和麦克风固定于麦克风支架上,耳机下方设置有固定带,电子喉施加装置设置于固定带上,该系统还包括下述三个主要模块:
1)发声过程中面部和颈部运动图像采集与处理模块,实现从运动图像的分析到视觉语音特征参数的提取;
2)咽腔嗓音源动态合成模块,将提取的视觉语音特征参数转换为嗓音源合成模型参数,并按照咽腔嗓音源数学模型合成波形;
3)咽腔电子喉重建语音实时增强与网络通讯模块,对采集的咽腔电子喉重建语音进行实时增强处理,并将处理后的语音进行远程网络传输,实现网络通讯功能;
摄像头通过数据连接线将采集到的运动图像作为输入信号传输给运动图像处理模块进行视觉语音特征参数提取;运动图像处理后输出的视觉语音特征参数,又作为输入信号进入咽腔嗓音源动态合成模块控制波形的合成;合成的咽腔嗓音源波形再次通过数据线输出给电子喉施加装置,施加于颈部咽腔处;重建的咽腔电子喉语音经麦克风设备采集后,通过数据线输入语音实时增强模块,同时语音实时增强模块也接收咽腔嗓音源动态合成模块的输入信号;通讯模块的输入则包括摄像头采集的视频信号与增强后输出的语音信号两部分,最终经过网络输出到另一个客户端,同时另一个客户端发出的音视频信号也是在通讯模块接收并播放。
由电子喉施加装置向计算机软硬件系统传输音视频信号进行处理,计算机软硬件系统提取的电子喉开关信号与合成的咽腔嗓音源信号传输给电子喉施加装置,电子喉施加装置工作所需的电能由计算机软硬件系统提供。
该自动调节的咽腔电子喉语音通讯系统中的音视频采集模块同时开始工作,利用摄像头获取发声过程中使用者面部和颈部的运动图像作为系统输入,图像处理模块对输入图像进行预处理,去除干扰信号,再通过目标区域定位、分割、特征参数提取,以及特征区域运动的跟踪,得到与发声特征相关的视觉语音特征参数,再经自动控制合成系统通过关系转换由视觉语音特征参数推导出咽腔嗓音源合成所需的模型参数和图像采集与处理模块产生的开关信号,控制咽腔嗓音源波形合成以及电子喉施加装置的振动;与此同时,麦克风记录下咽腔电子喉重建语音信号,结合开关控制信号和咽腔嗓音源合成波形,指导泄露周期噪声和环境噪声的估计,以及谱减参数的调整,并对音频采集模块采集的信号进行谱减语音增强处理,最终将得到的视频图像和增强的音频信号整合后,由网络通讯模块完成发送、接受和本地播放,实现远程通讯。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910020897.3/2.html,转载请声明来源钻瓜专利网。