[发明专利]汉语发音判断方法无效
申请号: | 201110070921.1 | 申请日: | 2011-03-23 |
公开(公告)号: | CN102163428A | 公开(公告)日: | 2011-08-24 |
发明(设计)人: | 陈淮琰;周骁;薛丽娟 | 申请(专利权)人: | 无敌科技(西安)有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/02;G10L11/04 |
代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 商宇科 |
地址: | 710075 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉语 发音 判断 方法 | ||
1.一种汉语发音判断方法,其特征在于:该方法包含以下步骤:
1)提供多个声学模板,每个声学模板包含标准音素的数学模型;
2)接收使用者发音,该使用者发音包含发音音素与发音声调;
3)比对发音音素与标准音素而取得音素相似度;
4)根据发音声调取得声调类型;
5)输出发音的音素相似度与声调类型。
2.根据权利要求1所述的一种汉语发音判断方法,其特征在于:所述步骤1)中的声学模板为隐藏式马可夫模型(Hidden Markov Model,HMM)。
3.根据权利要求1或2所述的一种汉语发音判断方法,其特征在于:所述步骤3)的具体步骤如下:
32)计算发音音素的时间区段;
34)根据时间区段判断音素为声母或韵母;
36A)根据标准音素计算声母的音素相似度;
36B)根据标准音素计算韵母的音素相似度;
38)计算发音音素相似度。
4.根据权利要求3所述的一种汉语发音判断方法,其特征在于:所述步骤32)的具体步骤如下:将使用者发音经过音框化(Frame Blocking)、预强调(Pre-emphasis)、加汉明窗(Hamming Window)、快速傅立叶转换(Fast Fourier Transform)、三角带通滤波(Triangular Band Pass Filters)、离散余弦转换(Discrete Cosine Transform,DCT),并提取梅尔倒频谱系数(Mel-Frequency Cepstrum Coefficients,MFCC)用来获取出其39维的语音音素特征参数;接着,利用维特比算法(Viterbi Algorithm)以强制对齐(Forced Alignment)方式计算切割使用者发音以得到每个发音音素的时间区段。
5.根据权利要求4所述的一种汉语发音判断方法,其特征在于:所述步骤4)的具体步骤如下:
42)由发音声调取出基频轨迹;
44)根据基频轨迹判断声调类型。
6.根据权利要求5所述的一种汉语发音判断方法,其特征在于:所述步骤42)中具体步骤如下:以平均幅度差参数从发音声调中计算提取出基频,并以动态规划算法消除基频的倍频半频误差而取得基频轨迹。
7.根据权利要求6所述的一种汉语发音判断方法,其特征在于:所述步骤44)中具体步骤如下:提取基频轨迹的特征参数,且根据发音音素的时间区段与基频轨迹的特征参数从而判断发音声调的声调类型。
8.根据权利要求7所述的一种汉语发音判断方法,其特征在于:所述基频特征参数包含总变化率、变化趋势率、最小基频所属区间与最大基频所属区间。
9.根据权利要求5所述的一种汉语发音判断方法,其特征在于:所述声调类型包含阴平、阳平、上声与去声。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无敌科技(西安)有限公司,未经无敌科技(西安)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110070921.1/1.html,转载请声明来源钻瓜专利网。