[发明专利]说话者辨认和确认系统无效
申请号: | 95191853.2 | 申请日: | 1995-02-28 |
公开(公告)号: | CN1142274A | 公开(公告)日: | 1997-02-05 |
发明(设计)人: | R·J·麦蒙;K·T·阿萨尔 | 申请(专利权)人: | 拉脱格斯大学 |
主分类号: | G10L5/06 | 分类号: | G10L5/06;G10L9/00 |
代理公司: | 上海专利商标事务所 | 代理人: | 张政权 |
地址: | 美国新*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 辨认 确认 系统 | ||
发明领域
本发明涉及说话者识别系统或者类似的装置,它将自适应权重加入每幅语音帧内的分量中以使语音谱归一化,从而减少了信道效应(channel effect)的影响。
背景技术
说话者辨认系统的目标是从发出的声音中辨认出语音是谁。而说话者确认系统的目标是从发出的声音中确认说话者声称的身份。说话者辨认和确认系统可以在一般的说话者识别类型中进行定义。
已知的典型电话交换系统在同一对始点和终点之间经常可以建立不同的信道路径。由于信道效应,每条信道上的语音谱可以具有不同的形状。此外,噪声环境下同一说话者产生的语音谱与安静环境下产生的语音谱相比,也可以具有不同的形状。由于非声道分量使语音谱发生了变化,所以对不同信道内或者噪声环境下的语音识别比较困难。
常规的方法是使语音谱归一化来校正谱的形状。美国专利No.5,001,761描述了一种对受到噪声影响的某一频率附近的语音进行归一化的装置。语音谱按照预先确定的频率分段。对分割的每段谱确定一条线性逼近线段并在预先确定的频率处将逼近线段连接起来以使谱归一化。该装置的缺点是只对受噪声影响的预先确定频率的语音帧进行归一化而没有采取归一化措施来减少整段频率范围内的非声道(non-vocal tract)的影响。
美国专利No.4,926,488描述了一种考虑为伴随语音信号的噪声以增强口语输入的方法对语音归一化。该方法生成语音的特征矢量。特征矢量由包含多个参数的算符函数归一化。对于归一化的矢量确定最接近的原型矢量并改变算符函数以将归一化矢量移动至最接近的原型。改变后的算符矢量叠加到转换为归一化矢量的下一特征矢量上。该方法的不足之处是没有考虑多个频率上的非声道效应。
一般的语音建模方式是模仿人类声道部分。利用可以变换为语音段谱包络内峰位(频率)和峰形(带宽)的参数,线性预测编码(LPC)已被用来描述较短的语音段。Cepstral系数代表信号功率谱对数的傅利叶逆变换。它可以从频率谱或者线性预测LP系数中导出。Cepstral系数可以用作说话者识别的主要特征。一般地,12个Cepstral系数形成一幅语音帧。
已经发现,在语音合成和识别中可以使用较少的Cepstral系数。美国专利No.5,165,008描述了一种使用5个Cepstral系数构成每一个说话者独立的数据段的语音合成方法。为了确定系数的权重因子,利用线性预测分析来确立5个一组的Cepstral系数。系数权重因子使声道资源空间内的每个矢量元素的非平方预测误差最小。在每幅语音帧上采用同一系数权重因子而不考虑非声道效应。
因此有必要提供一种语音识别系统,其中对语音谱进行归一化以在每幅语音帧上提供语音分量的自适应权重,从而在减少非声道效应的同时,改善信号的声道特征。
发明内容提要
本发明的方法基于这样一个事实,即语音分量谱形随时间的变化与非声道分量谱形随时间的变化是不同的。已经发现,非声道分量(例如信道和噪声分量)谱的带宽与语音分量的带宽比较起来要宽得多。通过使宽带分量衰减而增强与语音有关的窄带分量,改善了语音的提取。改善后的语音提取可以用于高性能说话者识别装置之类的产品中。
本方法涉及模拟语音信号的分析,它通过将模拟的语音信号转换为数字形式来产生数字语音的连续帧。利用线性预测分析来分别分析数字语音帧,从而提取出语音谱和称之为预测系数的一组语音参数。预测系数包含表征语音帧的分量的全极点(pole)滤波器的若干极点。谱分量可以进行归一化以根据其相关的带宽增强突出分量的贡献。自适应分量权重用于谱分量上以增强与语音相关的分量并使与非话音效应相关的分量衰减。Cepstral系数根据归一化谱确定从而提供语音信号的增强特征。基于增强特征,在说话者识别系统中对分类作了改进。
比较好的是,本发明的说话者识别系统可以用于确认在用于信用卡交易、电话付费卡交易和计算机网络访问的电话系统中的通话人身份。此外,说话者识别系统可以用于声控门锁、汽车声控引擎和声控计算机系统中。借助以下附图可以进一步理解本发明。
附图的简要说明
图1为系统训练期间本发明系统的流程图;
图2为评价期间本发明系统的流程图;
图3为用于特征提取和特征增强时本发明方法的流程图;
图4为未进行自适应分量权重滤波的已有技术语音谱的曲线图;
图5为带自适应分量权重滤波的图4所示语音谱的曲线图;
图6A为未进行自适应分量权重滤波的语音谱;
图6B为进行了自适应分量权重滤波的语音谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于拉脱格斯大学,未经拉脱格斯大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/95191853.2/2.html,转载请声明来源钻瓜专利网。