[发明专利]基于稀疏降维的说话人识别方法有效

申请号：	201310298757.9	申请日：	2013-07-16
公开（公告）号：	CN103413551A	公开（公告）日：	2013-11-27
发明（设计）人：	杨毅;刘加	申请（专利权）人：	清华大学
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/08
代理公司：	西安智大知识产权代理事务所 61215	代理人：	贾玉健
地址：	100084 北京市海淀区1***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于稀疏说话识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于音频技术领域，特别涉及一种基于稀疏降维的说话人识别方法。

背景技术

为了提高分类或聚类等算法的性能并减少计算复杂度，通常采用将其原始特征的高维空间降维（dimension reduction）到子空间的方法。降维技术广泛应用于机器学习领域，用于进行数据压缩及在低维子空间上保持重要的信息。

主成分分析（Principal Components Analysis，PCA）技术使得高维的高斯分布采样和映射后的低维采样之间的互信息（mutual information）最大化。主成分分析法借助于正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的几个正交方向，然后对多维变量系统进行降维处理，使之能以较高精度转换成低维变量系统，通过构造适当的价值函数，进一步把低维系统转化成一维系统。主成分分析算法的基本原理如下：

假设有一组d维矢量Y＝[y₁y₂...y_n]可以表示为：

y_j＝Wx_j+m (1)

其中W是d×c维矩阵，x_j为c维主成分矢量，m为d(c≤d≤n)维偏差矢量。主成分分析算法通过寻找合适的W、x_j和m使得按照如下公式定义的代价函数C最小：

C=Σj=1n||yj-Wxj-m||2---(2)]]>

其中y_j为d维矢量，x_j为c维矢量。

线性判别分析（Linear Discriminant Analysis，LDA）通过最大化类间散度（between-class scatter）和最小化类内散度（within-class scatter）来保持鉴别性信息（discriminative information）。基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大类间散度和最小类内散度，即模式在该空间中有最佳可分离性。线性判别分析算法的基本原理如下：

假设有属于整数c(c＞0)类的给定数据{x_i,j∈R^N}，其中i(1≤i≤c)表示类别，j表示第i类中的第j(1≤j≤n_i)个数据，n_i为第i类中的数据数，数据总数为n，第i类的平均值为m_i，所有数据的整体平均值为m。线性判别分析的目标是寻找x_i,j的一个最佳投影矩阵w，保证经过投影后的数据y＝w^T(x-m)在新的空间中具有最小类内散度和最大类间散度。类内散度矩阵S_w和类间散度矩阵S_b分别表示同类数据间的分散程度和不同类数据间的分散程度：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310298757.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于稀疏降维的说话人识别方法有效

专利文献下载