[发明专利]一种基于语音识别的构音障碍自动评估系统和方法在审
申请号: | 201911234291.X | 申请日: | 2019-12-05 |
公开(公告)号: | CN112927696A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 茹克艳木·肉孜;苏荣锋;王岚 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/02;G10L15/197;G10L25/30;G10L25/66;A61B5/00 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 识别 音障 自动 评估 系统 方法 | ||
1.一种基于语音识别的构音障碍自动评估系统,其特征在于,包括第一特征提取单元、第二特征提取单元、特征拼接单元、多层感知机、评估单元,所述特征拼接单元与所述第一特征提取单元、所述第二特征提取单元、所述多层感知机具有通信连接,所述评估单元与所述多层感知机具有通信连接,其中:所述第一特征提取单元用于提取传统的句子级别的声学特征;所述第二特征提取单元用于提取帧级别的音频标注和帧音素-概率对应关系,该帧音素-概率对应关系是一个帧所含音素及其后验概率组成的两元组的集合;所述特征拼接单元将所述第一特征提取的特征和所述第二特征提取单元提取的特征进行拼接处理,获得拼接特征;所述多层感知机用于基于拼接特征输出个体句子障碍程度类别和相应的预测概率;所述评估单元利用个体句子的预测概率信息得到总体评估结果。
2.根据权利要求1所述的基于语音识别的构音障碍自动评估系统,其特征在于,所述第二特征提取单元被配置为对每个句子音频提取音素时长、音素替换率、近似发音质量、帧模糊率或帧音素数中的一项或多项。
3.根据权利要求1所述的基于语音识别的构音障碍自动评估系统,其特征在于,所述多层感知机被配置为包括输入层、隐藏层和输出层,其中所述输出层设置为4个节点,分别对应“正常”、“轻微”、“中等”和“严重”四类构音障碍。
4.根据权利要求1所述的基于语音识别的构音障碍自动评估系统,其特征在于,所述第二特征提取单元被配置为:
将标准文本标注和实际发音音频输入深度神经网络声学模型,通过强制对齐得到帧级别的关于118个发音的音频标注;
将实际发音音频输入深度神经网络声学模型,得到深度神经网络声学模型的输出层每个节点对应的音素及相应的高斯概率密度函数;
计算每一帧包含的音素及其后验概率,其中相同音素的高斯概率密度函数的输出相加得到音素后验概率,进而获得帧音素-概率对应关系。
5.根据权利要求1所述的基于语音识别的构音障碍自动评估系统,其特征在于,所述第二特征提取单元被设置为对每个句子音频提取元音音素时长、辅音音素时长、总体音素时长、辅音替换率、元音替换率、总体替换率、辅音近似发音质量的均值、元音近似发音质量的均值、总体近似发音质量的均值、句子帧模糊率、辅音音素数、元音音素数、帧音素数中的一项或多项。
6.根据权利要求1所述的基于语音识别的构音障碍自动评估系统,其特征在于,所述特征拼接单元被设置为将所述第一特征提取单元提取的特征和所述第二特征提取单元提取的特征进行最大-最小归一化作为所述多层感知机的输入。
7.一种基于语音识别的构音障碍自动评估方法,包括以下步骤:
提取传统的句子级别的声学特征;
提取帧级别的音频标注和帧音素-概率对应关系,该帧音素-概率对应关系是一个帧所含音素及其后验概率组成的两元组的集合;
将所述传统的句子级别的声学特征和基于所述帧音素-概率对应关系提取的特征进行拼接处理,获得拼接特征;
利用多层感知机基于所述拼接特征输出个体句子障碍程度类别和相应的预测概率;
利用个体句子的预测概率信息得到总体评估结果。
8.根据权利要求7所述的基于语音识别的构音障碍自动评估方法,其特征在于,所述总体评估结果表示为:
其中,N表示被评估的语音句子数量,P平均,p预测是多维向量,每个维度代表构音障碍程度的类别,p预测表示构音障碍程度的对应概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911234291.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于电机控制器的装置
- 下一篇:一种石油开采用高效过滤装置