[发明专利]一种基于音素的语种区分性特征的语种识别方法在审
申请号: | 202210096847.9 | 申请日: | 2022-01-26 |
公开(公告)号: | CN115019775A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 龙华;苏树盟;邵玉斌;杜庆治;黄张衡;段云;王延凯 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/18 |
代理公司: | 昆明明润知识产权代理事务所(普通合伙) 53215 | 代理人: | 王鹏飞 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音素 语种 区分 特征 识别 方法 | ||
本发明涉及一种基于音素的语种区分性特征的语种识别方法,属于音频信号处理技术领域。本发明先从TIMIT数据集中抽离出音素集,对音素集构建了音素语音学区分性特征,采用音素语音学区分性特征训练并测试音素识别器,输出音频的帧级音素概率向量;再从LibriVox音频数据库获取多语种语料,针对多语种语料对TIMIT数据集中抽离出音素集进行音素扩充,输出语种短时完整语义语音段的帧音素概率特征;最后根据音素识别器输出的不同语种的帧音素概率特征构建语音段音素概率特征,进而构建语音段语种区分性特征。本发明可在经典的二维卷积神经网络中进行语种识别,获得较高识别率的语种识别结果。
技术领域
本发明涉及一种基于音素的语种区分性特征的语种识别方法,属于音频信号处理技术领域。
背景技术
传统的语种识别方法通常是将语音在帧级别上进行语音降维,提取一系列音频的声学特征,包括MFCC特征,SDC特征,GFCC特征,BFCC特征,PLP特征,LPCC特征,i-vector特征等。音频的声学特征参数包含了语音丰富的时序信息,在包含语种识别的大多数语音和声学模式识别问题中运用广泛。
作为语音学模式识别问题,语种识别采用一系列音频的声学特征参数、音频的声学特征参数的衍生参数、音频的声学特征参数的融合特征参数等作为主流的识别特征。虽然主流特征在特定的语料下与一些分类系统模型相结合取得了较好的效果,但这些特征在真实的声学环境中难以取得理想的识别结果,因为这些声学特征中包含很多环境特征、说话人特征,极大的降低了声学特征中的语种区分性信息特征的占比。
传统的基于音素的语种识别一般采用的方法分3个模块,音素识别模块,音素语种区分性特征构建模块,语种信息分类模块。其中,音素识别模块,以神经网络的方式直接对音素集进行训练,采用训练好的模型构建音素识别器;这种识别方法常常采用输入语音声学特征的方式,音素识别的结果会受到说话人和信道干扰因素的影响。
音素语种区分性特征构建模块,采用具有连贯声学特性的类音素取代语音学音素构建音素语音学特征;与语音学音素相比,以最小化语言片段失真度测量的类因素的语音辨识度大幅度降低。
语种信息分类模块,基于语音特征的二维语音特征重构的卷积神经网络比高斯混合模型GMM的分类性能更加优越,但是这种基于二维语音特征重构仅应用于语音语谱图或这语音声学特征的二维图谱,在音频语音学特征中为尚未被使用。
发明内容
本发明要解决的技术问题是提供一种基于音素的语种区分性特征的语种识别方法,用以解决上述问题。
本发明的技术方案是:一种基于音素的语种区分性特征的语种识别方法,构建了TIMIT音素集的音素区分性特征,通过GMM得分判定构建出输出帧音素概率特征向量的音素识别器,进一步采用音素识别器识别多语种的帧音素概率向量,依据输出的多语种帧音素概率向量的信息熵做TIMIT集外音素扩充,并且以语音段为单位推导语音段的音素向量及音素概率向量,采用语音段的音素向量及音素概率向量分别求语音段的n-gram元法的音素后验概率向量组合作为音素区分性信息,基于音素的语音学特征构造了多语种的语种区分性的特征,最后将所构造的音素语种区分性信息转为灰度图,采用经典的残差神经网络Resnet进行语种识别,以获得较高识别率的语种识别结果。
具体步骤为:
Stepl:首先获取LibriVox音频数据,再采用短时谱熵、短时能量,短时过零率参数进行完整语义短时语音段切分。
Step2:读入TIMIT数据集,依据TIMIT数据集合中的手动标记信息提取音素集合。
Step3:依据音素集合中的音素基音频率信息、共振峰频率信息构造音素区分性特征。
Step4:利用GMM模型对音素区分性特征进行训练和测试,构建帧级的音素识别器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210096847.9/2.html,转载请声明来源钻瓜专利网。