[发明专利]用于说话人识别的多背景模型建立方法有效

申请号：	201010118149.1	申请日：	2010-03-04
公开（公告）号：	CN101833951A	公开（公告）日：	2010-09-15
发明（设计）人：	张卫强;刘加	申请（专利权）人：	清华大学
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/02
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	朱琨
地址：	100084 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于说话识别背景模型建立方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于语音识别领域，具体地说，涉及一种多背景模型建立方法，可用于说话人识别。

背景技术

说话人识别是指使用机器从一段语音信号中识别出其说话人的身份信息。说话人识别技术主要用于基于语音的身份确认、语音侦听、法庭物证鉴定等领域。

说话人识别的方法主要包括VQ(矢量量化)、GMM-UBM(高斯混合模型-通用背景模型)、SVM(支持矢量机)等等。其中GMM-UBM实现简单且性能优良，在整个说话人识别领域应用非常广泛。

在GMM-UBM系统中，UBM描述了一般人的特征分布，而GMM描述了目标说话人的特征分布。在训练阶段，UBM由大量人的数据训练得到一个无偏向的模型，GMM由目标说话人的数据训练偏向目标说话人的模型；在测试阶段，对于未知语音，分别由GMM和UBM给出对数似然度，然后两者相减得到对数似然比分数，进而进行说话人识别。

通常意义上讲，UBM应该是通用的不偏向任何人的模型，但是实验表明，选择和目标说话人相近的数据训练得到的UBM性能更好，比如通常采用的性别相关的UBM，对男声和女生分别训练UBM，比性别无关的UBM性能更好。

显然，按性别对所有说话人进行划分是一种自然而外在的划分，对于语音信号来讲，这种划分不一定准确。首先，有的男声声音可能更像女声，而有的女声声音可能更像男声，应该按照声音去划分，而不是简单的按照说话人的性别划分；其次，把所有说话人分成两类仍然比较粗糙，可能分成多类更有利于说话人识别。

发明内容

为了解决现有GMM-UBM系统的不足，本发明提供一种根据说话人声道长度进行多背景模型建模的方法。在背景模型训练阶段，首先通过语音计算出说话人的声道长度，然后按照声道长度将所有训练UBM的语音分成多类，每类训练一个UBM。在说话人模型训练阶段，采用目标说话人语音，从每一个UBM自适应得到一个GMM，形成多组GMM和UBM。在识别阶段，对于测试语音，分别由每一组GMM和UBM，计算得到对数似然比分数，最后从多个分数中选择最小值进行说话人识别。本发明采用并行数字集成电路实现，等错率相对降低17％。

本发明的特征在于所述方法是在数字集成电路芯片中按以下步骤实现的：

步骤(1)：采用Baum-Welch算法，用训练通用背景模型UBM的所有数据训练一个高斯混合模型GMM Λ₀；

步骤(2)：求取每段语音的声道长度弯折系数，具体做法为：

步骤(2.1)：声道长度弯折系数α从0.88以步长0.02变化到1.12，对信号频谱进行“弯折”，设弯折前后的频率为f，f^α，频谱的低通和高通截止频率为f_l，f_u，则弯折公式为

fα=f+2(fu-fl)πarctan((1-α)sinθ1-(1-α)cosθ),]]>