[发明专利]用于改善语音质量和可懂度的系统有效
申请号: | 200680013216.5 | 申请日: | 2006-03-23 |
公开(公告)号: | CN101164104A | 公开(公告)日: | 2008-04-16 |
发明(设计)人: | P·赫瑟林顿;X·李 | 申请(专利权)人: | QNX软件操作系统(威美科)有限公司 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L21/00;G10L19/00 |
代理公司: | 北京纪凯知识产权代理有限公司 | 代理人: | 沙捷 |
地址: | 加拿大不列*** | 国省代码: | 加拿大;CA |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 改善 语音 质量 可懂度 系统 | ||
技术领域
本发明涉及用于改善通信系统中的语音信号的质量和可懂度(intelligibility)的方法和系统。
背景技术
所有通信系统,特别是无线通信系统,都受到带宽限制的影响。在这种系统中传输的语音信号的质量和可懂度必须与系统所能获得的有限带宽相平衡。例如,在无线电话网络中,带宽一般根据成功通信所必须的最小带宽来设置。理解元音所必需的最低频率为大约200Hz并且最高频率元音共振峰为大约3000Hz。然而,多数辅音为宽带,通常具有的能量在大约3400Hz以下的频率中。因此,多数无线语音通信系统被最优化成通过300和3400Hz之间。
图1显示了语音通信系统的典型通带10。一般地,通带10足以传送既是可理解的又是人员话音的合理传真的语音信号。然而,包含在通带10以外较高频率中的主要涉及辅音声音的语音信息由于带通滤波而被丢弃。这可能会对出现大量噪声的环境中的可懂度产生有害影响。
产生图1中显示的典型通带10的通带标准是基于近场区测量的,其中获得说话人声音的话筒位于与说话人的嘴相距10cm以内的地方。在这些情况下,信号噪声比很高并且足够的高频信息被保留从而使多数辅音可听懂。在远场区布置方式中,例如免提电话系统,话筒位于与说话人的嘴相距20cm或更远的地方。在这些情况下,信号噪声比比使用传统电话听筒时低很多。在免提电话被应用在移动车辆中时,道路、风和引擎的噪声会加剧噪声问题。实际上,在带有免提电话的车辆中的噪声水平可以高到使许多宽带低能量辅音被完全掩盖掉。
例如,图2显示出说出的词“seven”的两个摄谱(spectrograph)。第一摄谱12是在安静的近场区条件下取得的。第二个是在有噪声的远场区条件下,典型地为移动车辆的免提电话的情况下取得的。首先参考“安静的”seven 12,我们能看到组成说出的词“seven”的每个声音的迹象。首先,我们看到声音“S”16。这是一个大多数能量在较高频率中的宽带声音。我们看到第一和第二个E和所有它们的谐波18、22和夹在中间的宽带声音“V”20。在词结尾的“N”的声音与第二个E22结合起来直到舌头从嘴顶部放下,在词尾产生短的宽带能量24。
能听到辅音是决定语音信号的可懂度的最重要的一个因素。比较“安静”情况下的seven12与“有噪声的”情况下的seven14,我们见到“S”声音16被完全掩藏在第二个摄谱14中。在“有噪声的”seven的摄谱14中可以看清的声音仅仅为第一和第二个E 18、22的声音。这样,在有噪声的情况下,说出的词“seven”的可懂度被严重降低。如果噪声能量比辅音能量高许多(例如,3dB),则去除一定量噪声和通带内的滤波都不能改善可懂度。
车辆噪声将随着频率下降。另一方面,许多辅音(例如,F、T、S)倾向于在高频处具有很多能量。例如,通常仅在10KHz以上的语音信号的信息与辅音相关。图3重复在有噪声的环境中记录的但被延展到更宽的频率范围的词“seven”的摄谱。即使在出现大量噪声的情况下,“S”16的声音也可以被清楚地看到,但其仅在大约6000Hz以上的频率处可见。因为蜂窝电话通带不包括大于3400Hz的频率,在传统蜂窝电话通信中此高频信息被丢弃。由于对带宽容量的较高要求,扩展通带以保留此高频率信息不是改善语音通信可懂度的实际可行的解决方案。
已经尝试过压缩语音信号使它们全部的频谱(或至少一般丢弃了的高频内容的重要部分)落入通带中。图4显示出将被以此方式压缩的5500Hz语音信号26。图5中的信号28为被线性压缩到较窄的3000Hz范围内的图4的5500Hz信号26。尽管压缩的信号28仅扩展到3000Hz,所有包括在从3000到5500频率范围中的原始信号26高频内容被保留在压缩信号28中,但是以严重改变原始信号的基本音调和音质为代价的。原始信号26的所有频率,包括控制音调的与元音相关的低频被压缩到较低频率范围。如果压缩的信号28不经过后续的重扩展而再现,则语音将具有为语音通信所不能接受的不自然的低音调。在接收机处扩展压缩的信号将解决这一问题,但这需要在接收机处了解由发射机应用的压缩。这种方案对于多数电话应用情况都是不现实的,在多数电话应用中,不会供应与语音信号一起发送的编码信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于QNX软件操作系统(威美科)有限公司,未经QNX软件操作系统(威美科)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680013216.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铜基座大功率LED封装
- 下一篇:省力压动传动技术