[发明专利]一种基于语音识别的构音障碍自动评估系统和方法在审

专利信息
申请号: 201911234291.X 申请日: 2019-12-05
公开(公告)号: CN112927696A 公开(公告)日: 2021-06-08
发明(设计)人: 茹克艳木·肉孜;苏荣锋;王岚 申请(专利权)人: 中国科学院深圳先进技术研究院
主分类号: G10L15/26 分类号: G10L15/26;G10L15/02;G10L15/197;G10L25/30;G10L25/66;A61B5/00
代理公司: 北京市诚辉律师事务所 11430 代理人: 耿慧敏
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语音 识别 音障 自动 评估 系统 方法
【说明书】:

发明提供一种基于语音识别的构音障碍自动评估系统和方法。该系统包括第一特征提取单元、第二特征提取单元、特征拼接单元、多层感知机、评估单元,特征拼接单元与第一特征提取单元、第二特征提取单元、多层感知机具有通信连接,评估单元与多层感知机具有通信连接,其中第一特征提取单元用于提取传统的句子级别的声学特征;第二特征提取单元提取帧级别的音频标注和帧音素‑概率的关系;特征拼接单元将第一特征提取的特征和第二特征提取单元提取的特征进行拼接;多层感知机基于拼接特征输出个体句子障碍程度和相应的预测概率;评估单元利用个体句子的预测概率信息得到总体评估结果。本发明能提高构音障碍估计的准确性和稳定性。

技术领域

本发明涉及构音障碍评估技术领域,尤其涉及一种基于语音识别的构音障碍自动评估系统和方法。

背景技术

构音障碍表现为说话含糊不清,不流利,发音不准,音量、韵律异常等。医生通常经过发音器官检查和言语评估来确认是否患有构音障碍以及病理程度。对学龄前儿童,上述表现可以通过语言训练来改善和治愈。因医生资源、时间有限以及互联网和移动设备的广泛使用,促使构音障碍的语言训练得以在移动设备应用程序(app)上进行。移动端语言训练效果的评估结果,能为使用者提供及时反馈,同时为训练程序设计者提供有利于个性化设计训练课程的重要信息。

目前有效的评估方法主要以听觉感知的主观方法为主,客观分析方法缺少关注,没有完备的构音障碍自动评估方案。已有的构音障碍识别方案是提取构音障碍语音的共振峰来计算声学参数,计算器官运动数据的舌唇偏移位移,再对声学参数和器官运动数据做相关性计算来识别构音障碍。还有用集成在OpenSMILE工具的语音分析eGeMAPS声学参数集,被用来分析其他语音相关的疾病,如失语症语音评估,但目前还没有用在构音障碍语音分析评估的案例。

在学术研究上,对于构音障碍语音的评估主要集中在元音及部分声学特征上。例如已有讨论共振峰集中比率(FCR3)、三角元音区域(TVSA)、嗓音起始时间(VOT)与构音障碍的相关性,其中共振峰集中比率和三角元音区域特征由元音固定发音来提取,嗓音起始时间则由含有目标辅音的短语中提取。由于固定发音和日常对话中的连续语音在发音质量和时长上有区别,在现有技术中描述的元音特征不适于语言训练课程中连续语音的部分。针对辅音,这种方法只关注了b、p、d、t、g和k六个辅音,同时对于嗓音起始时间这类特征的程序自动提取很难做到精确。另外,这些特征不足以充分反应构音障碍语音存在的问题,特别是辅音上存在置换现象导致的发音不准问题没被考虑。

综上,现有技术还缺乏有效的构音障碍自动评估手段,存在的主要问题是:听觉感知的主观评估方法缺少客观性、准确性和稳定性;没有实现障碍语音的自动评估;现有评估方法所使用的输入局限在有限的、孤立的字母发音,没有使用连续语音信息。

发明内容

本发明的目的在于克服上述现有技术的缺陷,提供一种基于语音识别的构音障碍自动评估系统和方法,旨在使用基于语音识别的言语特征提取方式,并结合深度学习的分类器进行构音障碍自动评估。

根据本发明的第一方面,提供了一种基于语音识别的构音障碍自动评估系统。该系统包括第一特征提取单元、第二特征提取单元、特征拼接单元、多层感知机、评估单元,所述特征拼接单元与所述第一特征提取单元、所述第二特征提取单元、所述多层感知机具有通信连接,所述评估单元与所述多层感知机具有通信连接,其中:所述第一特征提取单元用于提取传统的句子级别的声学特征;所述第二特征提取单元用于提取帧级别的音频标注和帧音素-概率对应关系,该帧音素-概率对应关系是一个帧所含音素及其后验概率组成的两元组的集合;所述特征拼接单元将所述第一特征提取的特征和所述第二特征提取单元提取的特征进行拼接处理,获得拼接特征;所述多层感知机用于基于拼接特征输出个体句子障碍程度类别和相应的预测概率;所述评估单元利用个体句子的预测概率信息得到总体评估结果。

在一个实施例中,所述第二特征提取单元被配置为对每个句子音频提取音素时长、音素替换率、近似发音质量、帧模糊率或帧音素数中的一项或多项。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911234291.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top