[发明专利]说话人识别方法和系统无效
申请号: | 201210458641.2 | 申请日: | 2012-11-15 |
公开(公告)号: | CN102968990A | 公开(公告)日: | 2013-03-13 |
发明(设计)人: | 朱东来;鄂小松 | 申请(专利权)人: | 江苏嘉利德电子科技有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04 |
代理公司: | 上海海颂知识产权代理事务所(普通合伙) 31258 | 代理人: | 季萍 |
地址: | 212202 江苏省镇*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 识别 方法 系统 | ||
技术领域
本发明涉及生物特征识别领域。特别地,涉及一种说话人识别方法和系统。
背景技术
说话人识别是一种根据语音信号自动识别说话人身份的技术。说话人识别属于生物特征识别技术。生物特征识别技术是利用生物特征自动识别个体身份的技术,包括指纹识别、虹膜识别、基因识别、人脸识别等等。说话人识别利用语音信号进行身份识别,具有人机交互自然、语音信号易于提取、可实现远程识别等优势。
说话人识别是一种语音信号处理技术。语音信号处理技术是从语音信号中提取目标信息的技术,包括语音识别、说话人识别、语音语言识别、语音合成等。语音识别是将语音信号输入转换为文本输出的技术。语音语言识别是利用语音信号识别说话人语言的技术。语音合成是将文本输入转换为语音信号输出的技术。
图1显示了说话人识别系统的现有技术的结构框图。系统包括两个阶段:训练阶段和识别阶段。在训练阶段,系统使用收集的说话人语音为说话人建立模型。在识别阶段,系统将输入语音与说话人模型进行模式匹配,根据匹配得分作出判决。
说话人识别按识别结果输出方式分为说话人辨识和说话人确认。说话人辨识假设输入语音属于系统中的已训练说话人之一,将输入语音与系统中所有说话人的模型进行模式匹配,输出结果为匹配得分最高的说话人。说话人确认则用于确认输入语音是否属于某一特定说话人。系统将输入语音与目标说话人的模型进行模式匹配,如果匹配得分高于预设阈值,则判定输入语音属于该说话人;反之则不属于该说话人。由于说话人确认未假设输入语音属于已训练说话人,其识别难度一般高于说话人辨识。
说话人识别按输入语音类型分为与文本有关说话人识别和与文本无关说话人识别。与文本有关说话人识别是指使用已知文本内容的输入语音进行识别,即说话人按规定的文本发音。与文本无关说话人识别则使用随机文本内容的输入语音进行识别,即说话人按自己的表达意愿发音。由于与文本无关说话人识别未限制语音的文本内容,识别过程须消除语音与模型之间文本内容不一致带来的干扰,所以识别难度高于与文本有关说话人识别。与文本有关说话人识别可应用于语音银行服务、语音门禁系统、语音密码系统等;与文本无关说话人识别可应用于电话反恐监控等文本内容未知的场合。
说话人识别系统需要从语音信号提取能反映说话人个性的特征,并建立准确的模型区分该说话人与其他说话人之间的差异。在现实应用中语音信号极易受到各种干扰,包括信道干扰、噪声干扰、说话人生理心理变化干扰等。这些干扰因素导致语音波形产生随机变化,影响语音特征的提取和模型参数的训练,进而导致识别的准确度下降。现有系统多对语音信号提取倒谱特征,也有提取基音等特征。倒谱特征平滑了基音谐振,而基音特征提取相对不稳定,因而现有特征尚未充分表达说话人个人特性。现有系统说话人模型有高斯混合模型和支持向量机等,尚未能准确对输入特征进行识别。现有特征和模型尚未能有效应对各种信号干扰。因此需要找到一种能够准确和有效地识别说话人的方法和系统。
发明内容
本发明要解决的技术问题是提供一种说话人识别方法和系统, 能够准确和快速地识别说话人。要解决现有技术中特征提取和模型训练不够准确,识别性能易受干扰信号影响等问题。
本发明公开了一种说话人识别方法,所述方法包括如下步骤:
(1)、建立通用背景模型。通用背景模型从包含多个说话人的语音数据库训练得到,代表了所有说话人特征的概率分布,用于准确可靠地估计特定说话人模型;
(2)、建立待识别说话人模型。使用说话人的训练语音信号,基于通用背景模型进行自适应运算,得到特定说话人模型;
(3)、识别说话人。将输入语音与说话人模型进行匹配运算,如果得分高于预设阈值,则确认语音属于该说话人;反之则不属于该说话人。
进一步,所述建立通用背景模型的步骤,具体包括:
步骤201、收集包含多个说话人的语音数据库,用于训练通用背景模型;
步骤202、将语音数据库中的语音信号转换为倒谱特征;
步骤203、使用数据库中所有说话人的倒谱特征计算高斯混合模型和特征变换先验矩阵。高斯混合模型代表了说话人模型空间的先验分布;特征变换先验矩阵代表了特征空间变换矩阵的先验分布;
步骤204、使用数据库中每个说话人的倒谱特征,对各说话人计算特定人高斯混合模型的均值矢量和特征变换矩阵,矢量化矩阵并串联为超级矢量。得到的超级矢量集合用于训练支持向量机;
步骤205、使用数据库中所有说话人的超级矢量计算干扰因子消除映射的映射矩阵;该映射矩阵用于消除超级矢量中的干扰因子的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏嘉利德电子科技有限公司,未经江苏嘉利德电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210458641.2/2.html,转载请声明来源钻瓜专利网。