[发明专利]基于稀疏降维的说话人识别方法有效
申请号: | 201310298757.9 | 申请日: | 2013-07-16 |
公开(公告)号: | CN103413551A | 公开(公告)日: | 2013-11-27 |
发明(设计)人: | 杨毅;刘加 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 贾玉健 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,本发明通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。 | ||
搜索关键词: | 基于 稀疏 说话 识别 方法 | ||
【主权项】:
1.一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,其特征在于,所述求解稀疏投影矩阵方法如下:首先,对解路径进行初始化,即对公式求解:其中P定义为P=I-D1/2WD-1/2,W为邻接矩阵,D为稀疏水平矩阵,P对应的解x即稀疏投影矩阵,设上式的初始非稀疏解为x0,则有Px0=λx0,其中λ为特征值,并给定初始化拉格朗日乘数η0=-λ,初始化权重μ0=0;假设稀疏投影矩阵x中有n个非零元素,定义主集A为|λx|中的前n个最大非零元素,定义初始从集B为|λx|中除了前n个最大非零元素之外的其他非零元素;然后,通过反复迭代来搜索稀疏降维投影矩阵的最优解路径,具体方法为,在第k次迭代开始时,解路径以当前解xk-1为起点,以步长a沿着▽x=(xk-xk-1)/a的方向前进,权重更新为μk,得到一个满足如下公式的局部最优解xk:( P + η k I ) x k = - μ k 2 ∂ | | x k | | 1 s . t . ( x k ) T x k = 1 ]]> 其中拉格朗日乘数为l1范数||xk||1的偏导,第k次迭代的迭代更新公式如下:x A k = x A k - 1 + a ▿ x A x B k = x B k - 1 + a ▿ x B ]]> 其中为主集A在第k次迭代后得到的局部最优解,为主集A在第k-1次迭代后得到的局部最优解,为主集B在第k次迭代后得到的局部最优解,为主集B在第k-1次迭代后得到的局部最优解,其中sign为符号函数,迭代步长a=min{ai},i=1,2,其中a 1 = max x B k ▿ x B x A k = 0 a 2 = max x A k ▿ x A x B k = 0 ]]> 每一次迭代都以增加主集A的变量个数,同时减少从集B的变量个数为目标,当主集A的某个变量或从集B的某个变量变为零值时该迭代停止;迭代优化过程重复m次,直到xm的基数小于指定的基数,即到达指定的稀疏条件时停止,最终稀疏解为x*=xm,即为最终稀疏降维矩阵。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310298757.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种农用透视检测设备及其检测方法
- 下一篇:一种检测尿液有形成分的方法