[发明专利]一种基于语音识别的英语高级发音技巧评测方法在审
申请号: | 201810887498.6 | 申请日: | 2018-08-06 |
公开(公告)号: | CN110858482A | 公开(公告)日: | 2020-03-03 |
发明(设计)人: | 冯萌;贾艳明;张伟宇;徐宁 | 申请(专利权)人: | 北京博智天下信息技术有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/08;G10L15/06;G10L15/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 识别 英语 高级 发音 技巧 评测 方法 | ||
本发明提供了一种基于语音识别的英语高级发音技巧评测方法,所述方法包括连读评测和失爆评测。在连读评测方法中,使用LSTM和GRU网络对连读特征和非连读特征进行分类,达到连读识别的目的;在失爆评测方法中,将带失爆标记的词汇扩展到语言模型中的同时,在声学模型训练时加入失爆和非失爆语音,达到识别失爆的目的。
技术领域
本发明涉及一种发音技巧评测方法,特别是一种基于语音识别的英语高级发音技巧评测方法。
背景技术
对于国内英语学习者来说,口语往往是他们在英语学习中的薄弱点。因此人们尝试建立自动口语评测系统来帮助英语学习者来提升口语水平。口语评测包括重音、停顿、连读和失爆等方面,当前对于重音和停顿的评测方法都相对成熟,但对于较高级的连读和失爆发音技巧的评测尚不成熟。英语高级发音技巧评测中,现有方案是对文本语料中可能产生连读和失爆的词汇进行人工标注,同时扩展这些词的词表,识别过程中采用新的词表进行,然后统计连读或失爆词汇占所有应连读或失爆词汇的比例。但这种方法在基于WFST的解码网络中无法根据解码得到的音素序列判别是否连读,也无法在声学模型中不同时包含失爆和非失爆路径的情况下识别出失爆词汇。针对这些问题,对于文本语料的标注,本发明基于英语语言学规则进行自动标注。同时,本方法提出基于循环神经网络的分类模型来判别是否发生连读现象,提出同时在语言模型和声学模型中加入失爆和非失爆元素的方法来识别失爆现象。
发明内容
本发明提出一种基于语音识别的英语高级发音技巧评测方法,对于连读分类模型,首先提取连读词组对应的连读发音特征和非连读发音特征,再利用三次样条插值法和剪切多余特征法将特征维度归一化,最后建立LSTM网络和GRU网络,训练连读分类模型;对于失爆识别模型,首先准备带失爆和不带失爆的文本语料,构建语言模型,再准备带失爆和不带失爆的音频语料,构建声学模型,最后扩展为基于WFST的静态解码网络模型。同时,本文基于英语语言学规则,构建了连读元素提取器和失爆元素提取器。在识别出语音中的连读和失爆后,利用上述提取器提取语音跟读文本中所有可能连读和失爆的元素,对比得到评分。
附图说明:
图1 英语高级发音技巧评测流程图
图2 连读元素提取器
图3 失爆元素提取器
图4 连读/非连读声学特征提取器
具体实施步骤:
本发明实现的方法流程如图1所示。本发明主要分为两部分,第一部分是连读评分模块,这部分通过语音识别模块提取连读/非连读特征,利用LSTM/GRU神经网络分类模型,识别语音中的连读现象,对比跟读文本进行连读评分;第二部分是失爆评分模块,根据扩展了失爆词汇的语言模型和声学模型构建的WFST静态解码网络模型,识别语音中的失爆现象,对比跟读文本进行失爆评分。
结合一个具体的实例方法,连读评测操作流程步骤如下:
1) 利用图4方法提取语音中的连读/非连读特征;
2) 利用循环神经网络LSTM和GRU,训练分类模型;
3) 利用 图4方法提取待评测语音中的连读或非连读特征;
4) 将步骤3)提取的特征输入到分类模型,给出预测结果,以此作为连读评测得分。
结合一个具体的实例方法,失爆评测操作流程步骤如下:
1)利用图3方法提取文本语料中的失爆单词,给失爆单词加标记,同时扩展词表;
2)利用原始文本和加失爆标记的文本训练n-gram语言模型;
3)收集失爆和非失爆的语音,共同训练声学模型;
4)扩展WFST语音识别模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京博智天下信息技术有限公司,未经北京博智天下信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810887498.6/2.html,转载请声明来源钻瓜专利网。