[发明专利]一种人工智能学习的模糊语音语义识别方法及系统有效
申请号: | 201910713034.8 | 申请日: | 2019-08-02 |
公开(公告)号: | CN110600012B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 孙斌;李东晓 | 申请(专利权)人: | 光控特斯联(上海)信息科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G06N3/08 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 李小朋;谷波 |
地址: | 200232 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人工智能 学习 模糊 语音 语义 识别 方法 系统 | ||
1.一种人工智能学习的模糊语音语义识别方法,包括以下步骤:
步骤1,采集用户输入的模糊语音信号,并且提取模糊语音信号的高维度特征量;在本步骤中,提取模糊语音信号的高维度特征量,高维度特征量具体来说是每个模糊语音信号帧的频谱包络特征,频谱包络特征的提取过程是对每个模糊语音信号帧进行短时FTT转换,获得模糊语音信号帧的频谱,对模糊语音信号的频谱通过Mel滤波器得到Mel频谱,然后在Mel频谱基础上进行取对数和DCT离散余弦变换,获得MFCC系数,截取12-16个MFCC系数,作为模糊语音信号帧的频谱包络特征量Xt;
步骤2,根据模糊语音信号的频谱包络特征量,确定与模糊语音信号特征匹配的样本选集;
步骤3,构建用于将模糊语音重建为标准语音的GAN架构的重建模型,利用所述样本选集,训练所述重建模型;
步骤4,构建将模糊语音基频转化为标准语音基频的转换器;
步骤5,将用户输入的模糊语音信号的频谱包络特征量输入训练完毕的重建模型,获得重建模型的生成器输出的重建标准语音的频谱包络特征量,并且将模糊语音基频输入转换器,转化重建标准语音的基频;
步骤6,根据重建标准语音的频谱包络特征量以及基频,合成重建标准语音;
步骤7,利用重建标准语音进行语义信息的识别;
步骤2中建立若干个样本选集,每个语音样本包括模糊语音样本和标准语音样本,且模糊语音样本的特征量相似度在预设的相似度范围之内;基于步骤1提取的模糊语音信号的频谱包络特征量,与每个样本选集的选集代表性特征量进行匹配,从而选定与模糊语音信号的频谱包络特征量匹配的样本选集;
步骤2中,所述样本选集具有n段语音样本,每个语音样本对应的模糊语音样本的频谱包络特征量为X1s,X2s…Xns,每个频谱包络特征量为d维度特征向量,组成样本选集的特征量矩阵XS={X1s,X2s…Xns};对于d维中的第r维度,计算其在整个特征量矩阵XS的均值,表示为并且选取特征量矩阵XS中nk个特征量组成的子矩阵,记为子矩阵XkS,表示为从而特征量矩阵XS中每nk个特征向量组成一个子矩阵,共计c个子矩阵,即k=1,2...c;子矩阵XkS在d维中的第r维度的均值表示为则计算c个子矩阵的类间距离:
并且计算c个子矩阵每个子矩阵的类内距离:
其中xks,r为XkS中每个特征向量在r维度上的取值;
计算c个子矩阵每个子矩阵的类内类间比例:
σ=Db/Dw
进而确定具有最高的类内类间比例值的子矩阵为样本选集的选集代表性特征量;将模糊语音信号的频谱包络特征量与每个样本选集的选集代表性特征量进行匹配,即计算模糊语音信号的频谱包络特征量与作为选集代表性特征量的子矩阵内的特征量计算平均向量距离,选取平均向量距离最小的样本选集,从而选定与模糊语音信号的频谱包络特征量匹配的样本选集。
2.根据权利要求1所述的模糊语音语义识别方法,其特征在于,步骤3中GAN架构的重建模型包括:生成器G以及鉴别器D;所述生成器根据输入该生成器的模糊语音的频谱包络特征量,重建标准语音的频谱包络特征量;所述鉴别器用于判断生成器重建的频谱包络特征量的真伪。
3.根据权利要求2所述的模糊语音语义识别方法,其特征在于,步骤3中生成器G的损失函数IG(G)表示为:
其中表示生成器G的对抗损失,Lc(G)表示生成器G的循环一致损失,表示循环一致损失的正则化参数,Lid(G)表示生成器G的特征映射损失,表示特征映射损失的正则化参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于光控特斯联(上海)信息科技有限公司,未经光控特斯联(上海)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910713034.8/1.html,转载请声明来源钻瓜专利网。