[发明专利]一种说话人识别方法在审
申请号: | 202010552954.9 | 申请日: | 2020-06-17 |
公开(公告)号: | CN111724794A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 兰朝凤;赵宏运;郭思诚;陈小艳;苏桤木 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 哈尔滨市文洋专利代理事务所(普通合伙) 23210 | 代理人: | 何强 |
地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 识别 方法 | ||
一种说话人识别方法,解决了现有说话人模型识别准确率和稳定性不高的问题,属于声纹识别技术领域。本发明包括:提取说话人语音特征,作为训练集;建立说话人身份识别的网络模型,该网络模型是在融合模型的基础上结合基于附加间隔Softmax损失函数建立的,利用步骤一的训练集对所述网络模型进行训练,利用训练好的网络模型确定待识别的说话人语音特征的类别,所述基于附加间隔Softmax损失函数增加了类别中的决策间隔,使同一类别之间特征向量和权重向量的间隔距离更小,同时增大不同类别特征向量的间隔距离。提高了识别精确度,具有较好的鲁棒性。
技术领域
本发明涉及一种基于CNN与GRU融合的说话人识别方法,属于声纹识别技术领域。
背景技术
声纹识别(Voiceprint Recognition,VPR)是生物特征识别技术中重要的研究方向之一,它通过计算机识别人特有的生理特征或行为特征,进而实现个人身份鉴定。声纹识别也称为说话人识别(Speaker Recognition),常被应用于国防安全、远程监视、刑侦犯罪、声控锁等方面。随着互联网行业的蓬勃发展,说话人识别技术已经融入到各个领域之中,人们也在各行各业中追求能应用于海量数据的快速、便捷智能识别方式及方法。随着技术的进步,传统声纹识别方法已经无法满足对大数据的精准处理,伴随终端设备性能的大幅提高,对设备计算能力和内存容量有较高要求的深度学习方法逐渐引起研究人员的关注,因而学术界对说话人识别的研究热点也从传统机器学习转向了深度学习。目前虽已有一些深度学习算法促进了语音识别技术的发展,但说话人识别技术仍然是一项具有挑战性的任务。
说话人识别领域早期研究主要聚焦于特征参数的提取与匹配模型的搭建上,传统说话人识别模型大部分由语音信号频率上的短时倒谱特性得到其声学特征,再利用识别算法对说话人身份进行判别。常用倒谱特征如线性预测倒谱系数(Linear predictioncepstral coefficents,LPCC)和梅尔倒谱系数(Mel-scale frequency cepstral coeffi-cients,MFCC)等,传统匹配模型算法如高斯混合模型(Gaussian mixture model,GMM)、隐马尔科夫模型(Hidden markov model,HMM)和支持向量机(Support vector machine,SVM)等。上述传统方法虽然可以对说话人身份进行有效识别,但当需要识别的类别增多时会导致系统性能降低、计算时间变长及运行效率下降的缺陷。随着深度学习技术的发展,促进了传统说话人识别方法与深度学习方法的结合,有些学者提出了具有针对性的说话人识别网络结构。近年来,卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)在识别技术领域应用效果显著,CNN常用于处理高维图像信息,在图像分类领域受到广泛关注。RNN常用来处理文本和语音数据等具有序列特性的特征,在语音识别、文本分类等领域取得了较好的效果。RNN本身存在长时依赖问题,在训练RNN的过程中可能会出现梯度爆炸和梯度消失现象,为此许多学者对这一问题进行深入研究,并提出了相应的解决方案。此外,也有一些学者将CNN与RNN结合使用,构建融合模型,如使用CNN-RNN混合网络实现手写字的分类识别,基于CNN-LSTM模型对文本进行分类。对于说话人识别任务,由于语音包含的信息是具有前后关联的时序信号,利用CNN结合RNN的方法可以在多维度上对语音信号进行分析,能够让模型学习到更多的说话人特征。
真实场景中,说话人识别任务因存在复杂的环境噪声、语言的多样性、不同的发声方式等因素,因此对模型的区分性提出了更高要求。传统说话人识别模型常用hinge-loss、Softmax-loss损失函数,此种函数在注重区分相似度特征任务中效果较好,但对于多类别、类内类间差别不明显的任务效果欠佳。
发明内容
针对现有说话人模型识别准确率和稳定性不高的问题,本发明提供一种说话人识别方法。
本发明的一种说话人识别方法,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010552954.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工程技术用砂轮片制作上料装置
- 下一篇:一种冰糖装瓶用间歇性下料装置