[发明专利]基于偏差器官形态行为可视化的口语学习矫正方法有效

专利信息
申请号: 201810624822.5 申请日: 2018-06-17
公开(公告)号: CN108922563B 公开(公告)日: 2019-09-24
发明(设计)人: 段玉聪;宋正阳;张欣悦 申请(专利权)人: 海南大学
主分类号: G10L25/51 分类号: G10L25/51;G10L25/69;G10L15/02;G10L15/10;G10L25/18;G10L25/24;G09B5/06
代理公司: 暂无信息 代理人: 暂无信息
地址: 570228 海*** 国省代码: 海南;46
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明是一种基于偏差器官形态行为可视化的口语学习矫正方法。通过对学习者发音时的音素、重读、词间停顿和语调与标准音进行对比,计算学习者发音准确度以及发音器官行为与标准行为的偏差,可视化地展示给学习者。主要步骤是S1.采集学习者和标准音的发音信息,对所述采集信号进行预处理,提取特征;S2.构建句子的标准发音器官形态行为库,将标准音的发音特征映射到所述器官形态行为库;S3.计算学习者发音的音素、重读、停顿和语调与标准音的相似度,计算出器官行为的偏差值,可视化的展示给学习者;S4.综合四个指标对学习者的发音评分并反馈给学习者,提升学习效率。
搜索关键词: 可视化 学习者发音 器官形态 口语学习 音素 矫正 停顿 预处理 标准行为 采集信号 发音特征 发音信息 提取特征 学习效率 准确度 相似度 映射 构建 发音 句子 展示 器官 采集 反馈
【主权项】:
1.一种基于偏差器官形态行为可视化的口语学习矫正方法,通过计算学习者对句子的发音信息和标准音做对比,给出学习者的发音评分,如果发音不准确,将定位发音不准确的位置,反馈给学习者标准的发音以及可视化的告诉学习者发音器官动作;具体地,将原始语音信号经过处理得到切分的单词和组成单词的音素的Mel倒频谱系数,计算学习者的音素发音和标准音素发音的Mel倒频谱系数特征的欧几里得距离评估相似度,通过平均短时能量评估学习者发音的重读准确度,通过DTW算法评估学习者的语调发音准确度,通过基于短时能量和过零率的检测方法评估学习者的词间停顿准确度;具体实施步骤为:步骤S1.采集学习者对学习句子的发音信息以及标准发音信息,对采集信息进行预处理,提取特征;所述步骤S1具体包括:对采集的原始信号进行预处理,预处理包括预加重、分帧、加窗和端点检测;预加重:通过传递函数为H(z)=1‑az‑1的一阶FIR高通数字滤波器来实现预加重,其中a为预加重系数,0.9<a<1.0;分帧:采用可移动的有限长度的窗口进行加权的方法来实现分帧,其中帧移与帧长的比值为0~0.5;加窗:所述加窗函数为汉明窗:端点检测:采用双门限法进行端点检测,第n帧语音信号xn(m)的短时能量谱用En 表示,其计算公式如下:过零率:定义语音信号xn(m) 的短时过零率Zn式中,sgn[] 是符号函数,即:步骤S2.构建标准发音器官形态行为库,将标准发音的特征映射到标准发音器官形态行为库;所述步骤S2具体包括:提取句子标准发音的四个指标的特征,即音素特征提取Mel倒频谱系数,重读特征提取信号短时能量,词间停顿特征提取信号无声段时长,语调特征提取信号的强度包络,使用映射函数将标准发音的四个指标特征与标准发音器官形态行为建立对应关系;其中,音素特征的映射:即音素的Mel倒频谱系数特征映射倒发音器官形态行为函数h(oi, pk),其中oi表示第i个发音器官,pk表示第i个发音器官上的第k个映射点,使用一组映射系数U={u1, u2, u3, u4, u5, u6, u7, u8, u9, u10, u11, u12}将标准发音映射到标准器官行为,求出这组系数U之后对学习者的发音与标准发音的器官行为进行对比,MFCC系数为{m1, m2, m3, m4, m5, m6, m7, m8, m9, m10, m11, m12},h(oi, pk)=m1 *u1+ m2*u1+ …+ m12*u1U系数的选择条件是:满足条件:最小时的系数U;其中,重读特征的映射:标准发音第i个重读部分的短时能量谱曲线为En,在曲线上采集m个点取能量值形成一组离散的反应短时能量谱的离散点集{e1, e2, …,em}. 使用一组系数W={w1, w2, …,wm}将标准发音的重读发音的短时能量谱特征与标准器官行为对应起来,如下所示:h(oi, pk)=e1*w1 + e2*w2 + … + em*wm选取系数W的标准是:满足条件:最小时的系数组W;其中,语调特征的映射:标准发音的语调曲线是语音信号强度的曲线,在曲线上采集n个样本点形成离散的一组语音信号强度点集{s1, s2, …, sn},使用一组系数Q={q1, q2, …, qn}将标准发音的语调映射到标准器官行为上,如下所示:h(oi, pk) =s1*q1 + s2*q2 + … + sn*qn其中,选取系数W的标准是:满足条件:最小时的系数组Q;步骤S3.将采集的学习者的发音信息和标准发音信息进行对比,计算句子的音素、重读、词间停顿和语调与标准发音的相似度;若相似度大于阈值,则认为发音准确,若小于阈值,则认为发音不准确,计算不准确发音的器官形态行为与标准行为的偏差,并定位发音错误位置,用可视化的方式展示给学习者正确的发音以及正确发音的器官行为偏差;其中,音素相似度计算:通过计算学习者发音的音素与标准发音的音素的Mel倒频谱系数的欧几里得距离来评估学习者对音素发音的准确度,音素相似度计算如下:xk表示采集的学习者的语音引号的第k个音素Mel倒频谱系数的特征向量,yk表示标准音的第k个音素的Mel倒频谱系数的特征向量;判断音素发音相似度与阈值的大小,若音素相似度小于阈值Similarityys0,则认为发音不准确;计算学习者发音的器官行为与标准器官形态行为的差异值Differencexw1,计算实现如下:其中,表示音素标准器官形态行为,表示学习者的不准确音素发音时的发音器官形态行为,学习者对音素的发音器官行为的计算为:表示MFCC特征向量,表示音素发音时音素特征向发音器官行为映射的系数向量;重读相似度计算:使用结合基于短时能量和过零率的检测方法进行端点检测确定词的界限,从而切分连续语音信号的句子分开成一组词;当短时能量值超过阈值E0时标记为重读部分,标准音的短时能量超过E0的起始时刻为STstart和STend,重音相似度计算如下:其中,CTmiddle表示短时能量谱上第k个重音的中间时刻,CTstart表示第k个重音的发音起始时刻,STmiddle表示标准音的短时能量谱上第k个重音的中间时刻,STstart表示标准音的第k个重音的发音起始时刻,表示采集的语音信号的重读的短时平均能量,表示对应的标准音的第k个重读的短时平均能量;判断重读相似度与阈值的大小,若重读相似度小于阈值Similarityzhd0,则认为发音不准确;计算学习者重读发音的器官行为与标准器官形态行为的差异值Differencexw2,计算实现如下:其中,表示重读标准器官形态行为,表示学习者不准确重读的发音器官形态行为,学习者发音器官行为的计算为:表示抽样的短时能量离散点作为一个向量,表示重读时特征向器官映射的系数向量;词间停顿相似度计算:其中CTtd表示第i个停顿的时长,STtd表示对应的标准音的第i个停顿的时长;语调相似度计算:提取语音信号的包络,采集n个采集点的语音强度值作为特征向量,使用DTW算法计算语调相似度,实现如下:dist是采集信号与标准信号的DTW相似度参数,a和b通过训练得出;判断语调相似度与阈值的大小,若重读相似度小于阈值Similarityyd0,则认为发音不准确;计算学习者重读发音的器官行为与标准器官形态行为的差异值Differencexw3,计算实现如下:其中,表示语调的标准器官形态行为,表示学习者不准确语调的发音器官形态行为,学习者发音器官行为的计算为:,表示抽样的语音信号强度包络的离散点作为一个向量,表示语调特征向器官映射的系数向量;步骤S4.根据音素、重读、词间停顿和语调相似度计算学习者对句子发音的综合评分,判断学习者句子发音的综合得分,并反馈给学习者。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南大学,未经海南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810624822.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top