[发明专利]汉语发音判断方法无效

申请号：	201110070921.1	申请日：	2011-03-23
公开（公告）号：	CN102163428A	公开（公告）日：	2011-08-24
发明（设计）人：	陈淮琰;周骁;薛丽娟	申请（专利权）人：	无敌科技（西安）有限公司
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/02;G10L11/04
代理公司：	西安智邦专利商标代理有限公司 61211	代理人：	商宇科
地址：	710075 陕西省***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	汉语发音判断方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种发音判断方法，尤其是一种汉语发音判断方法。

背景技术

由于近年来计算机计算能力的提升以及语音辨识技术的进步，语音处理在日常生活上的应用与日俱增，如语音辨识、语音合成及语者辨识等等，其中，在跨国界的语言学习中，以计算机辅助使用者进行非母语学习的研究已受到相当地重视，各方都已纷纷投入研究。

其中，又以汉语为使用人数最多的一门语种，因此学习汉语逐渐形成语言学习的主流趋势。然而在语言学习的过程中，师资的缺乏与昂贵的学习支出让不少人为之却步，虽然市面上已推出许多语言发音学习产品，其中，不乏有技术发展较为成熟的复读机，但其仅能提供跟读，不能提供使用者语音分析信息，即使有一些基于语音信号分析而给予发音评分的产品，却是以通过波形对比来进行判别，其判别结果的可靠性不高，又或者无法针对汉语发音提供高准确率的声调辨别。因此，发展一种基于非特定人语音辨识技术，用来提供使用者自身发音相对于标准发音内容相似度与声调所属类型的判别方法是产业界亟欲发展的技术。

发明内容

本发明为解决背景技术中存在的上述技术问题，而提出汉语发音判断方法。

本发明的技术解决方案是本发明为一种汉语发音判断方法，其特殊之处在于：该方法包含以下步骤：

1)提供多个声学模板，每个声学模板包含标准音素的数学模型；

2)接收使用者发音，该使用者发音包含发音音素与发音声调；

3)比对发音音素与标准音素而取得音素相似度；

4)根据发音声调取得声调类型；

5)输出发音的音素相似度与声调类型。

上述步骤1)中的声学模板为隐藏式马可夫模型(Hidden Markov Model，HMM)。

上述步骤3)的具体步骤如下：

32)计算发音音素的时间区段；

34)根据时间区段判断音素为声母或韵母；

36A)根据标准音素计算声母的音素相似度；

36B)根据标准音素计算韵母的音素相似度；

38)计算发音音素相似度。

上述步骤32)的具体步骤如下：将使用者发音经过音框化(Frame Blocking)、预强调(Pre-emphasis)、加汉明窗(Hamming Window)、快速傅立叶转换(Fast Fourier Transform)、三角带通滤波(Triangular Band Pass Filters)、离散余弦转换(Discrete Cosine Transform，DCT)，并提取梅尔倒频谱系数(Mel-Frequency Cepstrum Coefficients，MFCC)用来获取出其39维的语音音素特征参数；接着，利用维特比算法(Viterbi Algorithm)以强制对齐(Forced Alignment)方式计算切割使用者发音以得到每个发音音素的时间区段。

上述步骤4)的具体步骤如下：

42)由发音声调取出基频轨迹；

44)根据基频轨迹判断声调类型。

上述步骤42)中具体步骤如下：以平均幅度差参数从发音声调中计算提取出基频，并以动态规划算法消除基频的倍频半频误差而取得上述基频轨迹。

上述步骤44)中具体步骤如下：提取基频轨迹的特征参数，且根据发音音素的时间区段与基频轨迹的特征参数从而判断发音声调的声调类型。

上述基频特征参数包含总变化率、变化趋势率、最小基频所属区间与最大基频所属区间。

上述声调类型包含阴平、阳平、上声与去声。

本发明提供的利用语音辨识技术，以强制对齐(Forced Alignment)方式计算切割使用者发音从而得到发音音素的时间区段，用来比对发音的音素相似度与判断发音的声调类型，进而对使用者进行公正的发音评分，据此达成辅助汉语发音的学习。

附图说明

图1为本发明汉语发音判断方法的流程图；

图2为本发明步骤30，计算音素相似度的流程图。

具体实施方式