[发明专利]用于检测语音段的方法无效

专利信息
申请号: 201080050560.8 申请日: 2010-10-07
公开(公告)号: CN102687196A 公开(公告)日: 2012-09-19
发明(设计)人: 卡洛斯·加西亚马丁内斯;海伦卡·杜先斯巴罗贝斯;毛里西奥·赛德拉维申斯;大卫·卡德纳斯桑切斯 申请(专利权)人: 西班牙电信公司
主分类号: G10L11/02 分类号: G10L11/02;G10L15/14
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王萍;李春晖
地址: 西班牙*** 国省代码: 西班牙;ES
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 检测 语音 方法
【说明书】:

技术领域

本发明属于语音技术的领域,特别为语音识别和说话人验证领域,本发明具体地属于对语音和噪音的检测的领域。

背景技术

自动语音识别是特别复杂的任务。原因之一是难以检测由用户发声的语音段的起始和结束,将语音段的起始和结束合适地区别于在开始说话之前、在结束说话之后出现的静默时段以及所述用户在说话期间为了呼吸而进行停顿的时段。

对发声的语音段的检测和定界出于两个原因而是基础的。首先,出于计算效率的原因:在语音识别中使用的算法在计算负荷方面要求非常高,因此在没有消除其中不存在用户话音的时段的情况下,将这些算法应用于整个声学信号会涉及到触发处理负荷,并且因此会引起识别系统的响应的显著延迟。其次,但是同样重要地,出于效验的原因:消除不包括用户话音的信号段极大地限制了识别系统的搜索空间,显著降低了识别系统的错误率。出于这些原因,商业自动语音识别系统包括用于检测噪音段和语音段的模块。

由于语音段检测的重要性,已经为合适地进行这项任务做出了许多努力。

例如,日本专利申请JP-A-9050288公开了一种用于检测语音段的方法。具体地,借助于将输入信号的幅值与阈值相比较来确定语音段的开始点和结束点。该方法具有下述缺点:操作取决于噪音信号的水平,因此在大幅值噪音存在时该方法的结果不合适。

接着,日本专利申请JP-A-1244497公开了一种基于计算信号的能量来检测语音段的方法。具体地,计算第一语音帧的平均能量,并且将所获得的值用作为对与话音交叠的噪音信号的能量的估计。然后,借助于将每个信号帧的能量与取决于噪音信号的估计能量的阈值进行比较来检测话音脉冲。由此补偿了噪音信号的能量值的可能的可变性。然而,当存在大幅值且短持续时间的噪音段时,该方法不会正确地起作用。

美国专利US-6317711也公开了一种用于检测语音段的方法。在该情况下,借助于LPC倒谱和MEL倒谱参数化针对每个信号帧获得特征向量。然后,寻找所述向量的最小值,并通过将所述向量中的所有元素的值除以该最小值来对所述向量中的所有元素归一化。最后,将归一化的能量的值与预定阈值集合比较以检测语音段。与之前方法提供的结果相比,该方法提供了更好的结果,尽管在不利的噪音状况下该方法仍然难以检测语音段。

美国专利US-6615170公开了一种用于检测语音段的替选方法,该方法基于对声学噪音和语音模型进行训练并且基于将输入信号与所述模型比较,借助于最大逼真性的最大化来确定所确定的帧是语音还是噪音,而不是基于将参数或参数向量与阈值或阈值集合相比较。

除了这些专利和其他类似的专利之外,科学文献中的对检测噪音和语音段的任务的处理非常昂贵,许多文章和文献提出了进行所述检测的不同方法。如此,例如“Voice Activity Detection Based on Conditional MAP Criterion标准”(Jong Won Shin,Hyuk Jin Kwon,Suk Ho Jin,Nam Soo Kim;in IEEE Signal Processing Letters,ISSN:1070-9908,Vo.15,Feb.2008)描述了一种用于基于MAP(最大后验)标准的变体来检测语音的方法,该方法基于频谱参数并且使用取决于紧接在前的分类结果的不同阈值来将信号帧分类成语音和噪音。

至于归一化,应该指出对包括在ETSI分布式语音识别标准(ETSI ES202 050 v1.1.3.Distributed Speech Recognition;Advanced Front-end Feature Extraction Algorithm;Compression Algorithms.Technical Report ETSI ES 202050,ETSI)中的用于检测语音的方法的推荐。该标准中推荐的方法是基于以下操作:针对信号的每一帧都来计算信号的三个参数并且将这些参数与三个相应的阈值比较,使用若干个连续帧的集合来进行最终语音/噪音判定。

然而,尽管提出了大量的方法,但是语音段检测的任务现今继续呈现出相当大的困难。至今所提出的方法,即基于将参数与阈值比较的方法以及基于统计分类的方法,在不利的噪音状况下特别是在非固定噪音存在的情况下,是不够鲁棒的,这使得在这样的状况下语音段检测错误增加。为此,将这些方法用在噪音特别大的环境中,如汽车的内部,会存在显著的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西班牙电信公司,未经西班牙电信公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201080050560.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top