[发明专利]测定多路运行声信号端点的装置及方法无效
申请号: | 01109574.1 | 申请日: | 2001-04-17 |
公开(公告)号: | CN1381829A | 公开(公告)日: | 2002-11-27 |
发明(设计)人: | 金润 | 申请(专利权)人: | 韦尔博泰克公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00 |
代理公司: | 永新专利商标代理有限公司 | 代理人: | 韩宏 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 测定 运行 信号 端点 装置 方法 | ||
本发明大致上关于语音识别系统及较特别地是关于连续性声信号端点测定。
在通过机器自动地语音识别的方法中,此等方法是使机器基于所观察到的信号的声学特征及声学特征与语音声调的已知关系去解码一声信号波形。选择捕获语音主要语言特性的声信号区域同时去除其他区域以改善语音识别的精确度。因为机器仅能处理自原始信号提取出的声信号区域,若所选择的区域包含噪音或其他不表示本身语音的人工语音,则将不可能有准确的机器语音识别。另一方面,若舍弃语音的主成份,因为信息一旦失去将永久失去,则下游的语音识别性能将严重减低。
清楚地,在用于连续性语音的语音识别方法中,若要达到准确的识别,必须精准地检测发音的起始点及终止点。一种通过扰动端点来测定端点误差对测定准确性的影响的多重扬声器数字测定实验,已显示出即使小端点误差,仍会导致数字测定准确性的显著减低。例如,若二端点的误差为±60ms(一般为语音的4个帧),准确性下降3%。再者,当端点误差增加时,准确度同样地减低。
最早期的口语音节的端点测定的熟知方法是简单地以将端点固定在信号的能量密度低于某一预定级的点为基础,然后在此点切割语音波形并将整个语音波形分解成待处理的片段。在理想的收听状况下,此一方法有时候能产生可接受的语音识别结果。然而,在吵杂的背景状况下,低于特定级的主要语音的能量强度的检测将很难测定。实际谈话环境中的不利状况一般包含背景噪音、语音失真、及个人的独特发音特性。来自人们谈话及移动、家庭电器用品、机器、交通状况的背景噪音,几乎存在住家、办公室、车子或公共场所等任何环境中。语音图谱的失真可源自话筒的频率反应、安装位置及变换器的品质,以及信号传送路线中的干扰。再者,各自的说话者各自具有自身独特的发音倾向,以及甚至对同一说话者而言,因为瞬间的情绪造成沉重呼吸或特别是界于字间的音调改变(已知为伦巴德效应)等其他事情,可能发生语音变化。
再者,一般在单字发音的开始及终止期间,说话者通常产生例如唇响、沉重呼吸及嘴巴开合的声等人工声音。对端点检测而言,特别不易处理者为无声子音,尤其是摩擦音,例如″s″、″f″、″ch″及″sh″,其通常无法识别成语音的主要部分。摩擦音为声带处的狭窄收缩所引起的空气扰动产生的声音。如此使得摩擦音很难利用熟知端点检测技术来记录,因为其能量级及频谱特性与声音背景无显著差异。再者,因为正常语音包含许多不同的说话速度及声调,依各自的说话者而定,一种精准的语音识别系统必须具有精准的端点检测系统以致能解释此等差异。
语音端点检测的直接方式为简单地取得语音的经抽出特征,寻找并界定语音事件,并接着传送事件至用于辨识的图形配对算法。直接方式常因为非静态干扰及吵杂的背景环境而失败。间接方式考虑通过包含一比较模板中特定声音背景的模式,同时进行语音检测与图形配对过程。间接方式主要通过在特定条件下容许不同语音端点来改良语音检测,然而,其必须携带非常沉重的计算负荷。此混合方式通过仅考虑一小组通过直接方式选择的合理的端点估算值来降低计算负担。然而,在分析及级次化等能量线的形式上必须进行可观的预处理以发现经估算的端点对,由此获得大量的实验数据以供辨识合理的端点估算值。
因此,所需要的是一种精确端点检测系统,其不会舍弃例如无声辅音的语音的主要部分,且解释在不利的声音环境下的一般语音的异常。本发明为用于测定一对精制的用于语音识别处理的声信号端点的装置及方法,包含用于处理声信号的声信号处理器;一海平面(sea level)分析仪,其耦合至声信号处理器,以供测定声信号的噪音海平面及零穿越率海平面;一有声部分的初始端点产生器,其耦合至海平面分析仪,以供产生声信号的第一对起始及终止点;一无声部分精制端点产生器,其耦合至有声部分初始端点产生器,以供产生声信号的第二对起始及终止点;以及一精制产生器,其耦合至无声部分精制端点产生器,以供利用零穿越率海平面产生声信号的第三对起始及终止点。
第1图为典型的语音波形图,显示信号幅度及穿越水平轴的信号;
第2图为说明本发明的端点检测系统的示意流程图;
第3图为说明根据本发明的声信号处理器的示意流程图;
第4图为说明根据本发明的近(enerby)海平面的计算的流程图;
第5图为说明根据本发明的零穿越率海平面的计算的流程图;
第6图为一秒钟声信号的概要说明图,显示根据本发明的有声部分;
第7图为第6图的一秒钟语音发音的概要说明图,显示根据本发明的无声部分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于韦尔博泰克公司,未经韦尔博泰克公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01109574.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:外科手术器械
- 下一篇:电化学过程用的无定形金属/金属玻璃电极