[发明专利]一种高精度说话人确认方法无效

申请号：	201310075089.3	申请日：	2013-03-08
公开（公告）号：	CN103198833A	公开（公告）日：	2013-07-10
发明（设计）人：	罗森林;谢尔曼;潘丽敏	申请（专利权）人：	北京理工大学
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/14
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种高精度说话确认方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种高精度说话人确认方法，其特征在于，所述方法包括以下步骤：

步骤1，获取待确认说话人（即目标说话人）的语音信号，形成基础语音库S。

步骤2，对基础语音库S中的语音进行音频特征积分图计算，形成基础特征库R。

步骤3，在基础特征库R的基础上，生成每个目标说话人的训练特征文件集B。

步骤4，在步骤3的基础上，提取2D-Haar音频特征，并进行说话人注册，也就是依次遍历特征文件集B中的k个文件夹，并使用其中的训练特征文件为每个目标说话人训练出单独的“1对余”分类器，最终得到由k个说话人分类器构成的分类器池。

步骤5，对用户提供的、申明是说话人k发声录制的语音文件，提取其2D-Haar音频特征，输入步骤4训练得到的说话人k的分类器，以确认该文件中的语音是否确实由用户所申明的说话人讲出。

2.根据权利要求1所述的方法，其特征在于，所述获取待确认说话人的语音信号并不要求说话人按照特征模板中预置文本内容进行发音。

3.根据权利要求1所述的方法，其特征在于，所述音频特征积分图计算的步骤具体包括：

步骤1，对于第k个目标说话人，对其音频文件s_k进行分帧处理（帧长f_s、帧移Δf_s由用户设定），并提取各帧的基础音频特征（如MFCC、LPCC、子带能量等，具体使用哪些特征，由用户指定），将各帧的基础音频特征组合，形成一个包含c帧、每帧p维特征量的基础特征文件v_k。

v_k中每一帧的特征向量的内容为：{[基础特征1（p₁维）]，[基础特征2（p₂维）]，…，[基础特征n（p_n维）]}.

步骤2，对于第k个目标说话人的基础特征文件v_k，采用滑窗的方式，以a为窗长、s为步进，将所有的c帧音频特征向量转换成音频特征图序列文件G_k。

G_k={g₁,g₂,g₃,…g_u}.

步骤3，在步骤2的基础上，计算对于第k个目标说话人的特征图序列文件G_k中每幅特征图g_u的特征积分图r_u，形成该说话人的特征积分图序列文件R_k={r₁,r₂,r₃,…r_u}，将基础语音库S中所有k个目标说话人的特征积分图序列文件集中起来，形成基础特征库R={R₁，R₂，…，R_k}.

所述的特征积分图与原始特征图尺寸相同，其上任意一点(x,y)的值被定义为原图对应点(x’,y’)及其左上方所有的特征值之和。定义式如下：

式中ii(x,y)表示积分图上点(x,y)的取值，i(x′,y′)表示原始特征图上点(x’,y’)的特征值。

4.根据权利要求1所述的方法，其特征在于，所述提取2D-Haar音频特征的计算方法为：

每维2D-Haar音频特征的取值都是原始音频特征图上，任意尺寸、位置的方形区域中，使用某一特定矩形区域的特征值之和减去另一个特定矩形区域的特征值之和，可通过积分图快速计算获得。其总维数H由采用的2D-Haar音频特征类型以及积分图的尺寸决定

将每幅积分图相应的H维2D-Haar音频特征向量记作一行，使特征文件夹B_k中所有m幅积分图的全部H维2D-Haar音频特征向量构成一个m行、H列的特征矩阵X。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310075089.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载