[发明专利]一种中国学生英语朗读质量分析方法有效
申请号: | 202010573319.9 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111653292B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 黄桂敏;朱洪涛;李俊;周娅 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/24;G10L15/02 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中国学生 英语 朗读 质量 分析 方法 | ||
1.一种中国学生英语朗读质量分析方法,其特征是:包括一个由顺序连接的英语朗读发音预处理模块、英语朗读发音错误检测模块、英语朗读发音质量分析模块、英语朗读发音质量输出模块组成的分析模型,其分析方法包括如下步骤:
(1)英语朗读发音预处理模块输入英语朗读语音,对英语朗读语音进行预加重、分帧、加窗处理;对预加重、分帧、加窗处理后的英语朗读语音进行快速傅里叶变换、梅尔滤波、取对数、离散余弦变换,得到英语朗读语音的梅尔频率倒谱系数;对英语朗读语音的梅尔频率倒谱系数进行一阶和二阶时域差分,得到一阶和二阶差分系数,并将梅尔频率倒谱系数及其一阶和二阶差分系数拼接,得到英语朗读语音的声学特征,并输出英语朗读语音的声学特征;
(2)英语朗读发音错误检测模块输入英语朗读语音的声学特征和英语朗读文本;根据英语朗读文本搭建搜索网络,并使用识别器在搭建好的搜索网络中将英语朗读语音的声学特征和英语朗读文本进行自动对齐切分,得到英语朗读语音的音素边界信息;使用英语朗读语音的音素边界信息,根据公式计算英语朗读语音单词发音标准度,并和单词预设阀值进行比较,标记发音错误单词;根据公式计算英语朗读语音音素发音标准度,遍历发音错误单词中的所有音素,并和音素预设阀值进行比较,标记发音错误单词中的发音错误音素;将英语朗读语音中的发音错误单词及其对应的发音错误音素拼接,得到英语朗读发音错误检测结果,并输出英语朗读发音错误检测结果;
(3)英语朗读发音质量分析模块输入英语朗读语音音素发音标准度和标准英语朗读语音,基于自动对齐切分得到的英语朗读语音音素边界信息,根据公式计算英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值;将计算得到的英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值输入到预先训练好的支持向量回归评分模型中,输出英语朗读发音质量得分,并输出英语朗读发音质量分析结果;
(4)英语朗读发音质量输出模块输入英语朗读发音错误检测模块的结果、英语朗读发音质量分析模块的结果;根据英语朗读发音错误检测模块的结果、英语朗读发音质量分析模块的结果生成英语朗读发音质量评语;
所述的英语朗读发音预处理模块处理步骤如下:
P201开始;
P202读入英语朗读语音;
P203对英语朗读语音进行预加重;
P204对预加重后的英语朗读语音进行分帧;
P205使用汉明窗对分帧后的英语朗读语音进行加窗;
P206对加窗后的每帧英语朗读语音进行快速傅里叶变换,转换到线性频域并计算得到每帧英语朗读语音的功率谱;
P207将每帧英语朗读语音的功率谱通过由一系列三角带通滤波器构成的梅尔滤波器组,得到梅尔频域的功率谱;
P208对梅尔频域的功率谱取对数;
P209对取对数后的梅尔频域的功率谱进行离散余弦变换,得到梅尔频率倒谱系数;
P210对梅尔频率倒谱系数进行一阶和二阶时域差分,得到一阶和二阶差分系数;
P211将梅尔频率倒谱系数及其一阶和二阶差分系数拼接,得到每帧英语朗读语音的声学特征;
P212输出英语朗读语音的声学特征;
P213结束;
所述的英语朗读发音错误检测模块的计算公式定义如下:
(1)英语语音帧观测矢量与音素似然度计算公式
英语语音帧观测矢量与音素似然度是指英语语音帧观测矢量对应的声学特征与音素对应的声学模型之间的相似程度,它的计算公式如下:
英语语音帧观测矢量与音素似然度=状态转移概率×观测概率 (1)
在计算公式(1)中,状态转移概率是指音素对应的声学模型中不同状态之间相互转移的概率;观测概率是指音素对应的声学模型处于某一状态时生成语音帧观测矢量的概率;
(2)英语朗读语音音素发音标准度计算公式
英语朗读语音音素发音标准度是指英语朗读语音中当前音素发音的标准程度,它的计算公式如下:
在计算公式(2)中,s=1,2,…,M,s是英语朗读语音中的第s个音素,M是声学模型中的音素总数;t=t0,…,t1,t是英语朗读语音中第s个音素所处的时刻,t0是英语朗读语音中第s个音素的起始时刻,t1是英语朗读语音中第s个音素的结束时刻;英语语音帧观测矢量t是指英语朗读语音中第s个音素在时刻t对应的观测矢量;英语语音帧观测矢量t与音素s似然度由计算公式(1)计算得出;
(3)英语朗读语音单词发音标准度计算公式
英语朗读语音单词发音标准度是指英语朗读语音中当前单词发音的标准程度,它的计算公式如下:
在计算公式(3)中,i=1,2,…,m,i是英语朗读语音当前单词中每个音素对应的序号,m是英语朗读语音中当前单词包括的音素总数;英语朗读语音音素i发音标准度由计算公式(2)计算得出;
所述的英语朗读发音错误检测模块处理步骤如下:
P301开始;
P302读入英语朗读语音的声学特征;
P303读入英语朗读文本;
P304加载识别器的声学模型、语言模型和发音词典,并根据英语朗读文本搭建搜索网络;
P305利用识别器在搭建好的搜索网络中对英语朗读语音的声学特征和英语朗读文本进行自动对齐切分,得到英语朗读语音的音素边界信息、英语朗读语音的单词集合和英语朗读语音的音素集合;
P306将英语朗读语音的单词集合和英语朗读语音的音素集合进行匹配对齐,使得英语朗读语音的单词集合中的每一个单词在英语朗读语音的音素集合中都有与之对应的音素序列;
P307使用英语朗读语音的音素边界信息和英语朗读语音的音素集合,根据公式(1)与公式(2)计算出英语朗读语音音素发音标准度并输出;
P308使用英语朗读语音的音素边界信息和英语朗读语音的单词集合,根据公式(3)计算出英语朗读语音单词发音标准度;
P309遍历英语朗读语音的单词集合中的所有单词;
P310判断英语朗读语音当前单词发音标准度是否小于单词预设阀值,如果是则转P311,否则转P309;
P311将当前单词标记为发音错误;
P312遍历当前发音错误单词在英语朗读语音的音素集合中对应的音素序列中的所有音素;
P313判断英语朗读语音当前音素发音标准度是否小于音素预设阀值,如果是则转P314,否则转P312;
P314将当前音素标记为发音错误;
P315判断当前发音错误单词中的所有音素是否已经遍历完成,如果是则转P316,否则转P312;
P316判断英语朗读语音的单词集合中的所有单词是否已经遍历完成,如果是则转P317,否则转P309;
P317将英语朗读语音中标记为发音错误的单词及发音错误单词中标记为发音错误的音素拼接,得到英语朗读发音错误检测结果;
P318输出英语朗读发音错误检测结果;
P319结束;
所述的英语朗读发音质量分析模块的计算公式定义如下:
(1)英语朗读语音整体发音标准度计算公式
英语朗读语音整体发音标准度是指英语朗读语音中所有音素发音标准度的平均值,它的计算公式如下:
在计算公式(4)中,j=1,2,…,n,j是英语朗读语音中每个音素对应的序号,n是英语朗读语音中的音素总数;英语朗读语音音素j发音标准度由计算公式(2)计算得出;
(2)英语朗读语速计算公式
英语朗读语速是指英语朗读语音中音素总数和英语朗读语音总时长的比值,它的计算公式如下:
(3)英语朗读发音速度计算公式
英语朗读发音速度是指英语朗读语音中音素总数和不包括停顿总时长在内的英语朗读语音总时长的比值,它的计算公式如下:
(4)英语朗读发音时长比值计算公式
英语朗读发音时长比值是指不包括停顿总时长在内的英语朗读语音总时长和英语朗读语音总时长的比值,它的计算公式如下:
(5)英语朗读平均语流时长计算公式
英语朗读平均语流时长是指英语朗读语音中音素总数和英语朗读语音中停顿总次数的比值,它的计算公式如下:
(6)英语朗读平均停顿时长计算公式
英语朗读平均停顿时长是指英语朗读语音中停顿总时长和英语朗读语音中停顿总次数的比值,它的计算公式如下:
(7)英语音素标准发音时长均值计算公式
英语音素标准发音时长均值是指标准英语朗读语音中所有音素样本的平均发音时长,它的计算公式如下:
在计算公式(10)中,k=1,2,…,p,k是标准英语朗读语音中每个音素样本对应的序号,p是标准英语朗读语音中的音素样本总数;英语音素k标准发音时长是指标准英语朗读语音中第k个音素样本的发音时长;
(8)英语单词标准发音时长计算公式
英语单词标准发音时长是指标准英语朗读语音中单词对应的发音时长,它的计算公式如下:
/
在计算公式(11)中,q=1,2,…,c,q是标准英语朗读语音中当前单词的每个音素对应的序号,c是标准英语朗读语音中当前单词包括的音素总数;英语音素q标准发音时长均值由计算公式(10)计算得出;
(9)英语朗读单词发音时长比值计算公式
英语朗读单词发音时长比值衡量了英语朗读语音中所有单词的发音时长与标准英语朗读语音中单词发音时长之间的偏离程度,它的计算公式如下:
在计算公式(12)中,w=1,2,…,d,w是英语朗读语音中每个单词对应的序号,d是英语朗读语音中的单词总数;e是指自然对数的底数;英语单词w发音时长是指英语朗读语音中第w个英语单词的发音时长;英语单词w标准发音时长由计算公式(11)计算得出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010573319.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电磁阀控制装置及智能干选机
- 下一篇:电流放大电路、方法及LED驱动电路