[发明专利]一种连续语音声调识别方法无效

申请号：	201010279090.4	申请日：	2010-09-10
公开（公告）号：	CN101950560A	公开（公告）日：	2011-01-19
发明（设计）人：	刘常亮;潘复平;董滨;颜永红	申请（专利权）人：	中国科学院声学研究所
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/14
代理公司：	北京法思腾知识产权代理有限公司 11318	代理人：	杨小蓉;高宇
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种连续语音声调识别方法，1)提取已知语音段中每一个语音帧的频谱特征和基频特征，所述基频特征至少包括：当前语音帧的基频值，当前连续基频段的长度，以及当前帧基频值与前一个连续基频段的后N帧基频平均值的差值；2)对所提取出的基频特征流和频谱特征流，分别采用多空间概率分布和普通的隐马尔可夫模型来进行建模；3)采用特征流相关的决策树聚类方法建立决策树，分别得到聚类后的基频特征模型和频谱特征模型；4)对每一句待识别语音进行语音识别；5)根据已得出的音节内容，基于步骤3)所得出模型和建立声调识别网络，并在所述声调识别上进行Viterbi搜索，得其最优路径，并从最优路径中提取声调序列，作为最终的声调识别结果。
搜索关键词：	一种连续语音声调识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种连续语音声调识别方法，包括训练步骤和识别步骤，其特征在于，所述训练步骤包括：1)提取已知语音段中每一个语音帧的频谱特征和基频特征，对于每一个语音帧，所述基频特征至少包括：当前语音帧的基频值，当前连续基频段的长度，以及当前帧基频值与前一个连续基频段的后N帧基频平均值的差值；所述频谱特征是MFCC特征或者MF‑PLP特征，或者是二者的组合；2)对所提取出的多个语音帧的基频特征所组成的基频特征流，采用多空间概率分布隐马尔可夫模型来进行建模，对所提取出的多个语音帧的频谱特征所组成的频谱特征流，采用普通隐马尔可夫模型建模；其中，组成识别单元的元素包括当前音节，当前声调以及前一个字的声调；3)采用特征流相关的决策树聚类方法，根据所述识别单元中的当前音节和前一个字声调来建立决策树；其中，对频谱特征流和基频特征流分别建立不同的决策树，分别得到聚类后的基频特征模型和频谱特征模型；所述识别步骤包括：4)对每一句待识别语音，进行语音识别得出其音节内容；5)根据已得出的音节内容，基于训练步骤所得出的聚类后的基频特征模型和频谱特征模型，建立声调识别网络，并在所述声调识别上进行Viterbi搜索，得其最优路径，并从最优路径中提取声调序列，作为最终的声调识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所，未经中国科学院声学研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010279090.4/，转载请声明来源钻瓜专利网。

上一篇：一种无卤型低温固化银浆及其制备方法
下一篇：一种侧光式白光LED背光源控制方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种连续语音声调识别方法无效

专利文献下载