[发明专利]结合韵律和发音学特征的汉语声调识别系统及方法有效

申请号：	201210482699.0	申请日：	2012-11-23
公开（公告）号：	CN102938252A	公开（公告）日：	2013-02-20
发明（设计）人：	刘文举;晁浩	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L15/02	分类号：	G10L15/02
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	宋焰琴
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	结合韵律发音特征汉语声调识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别领域，尤其涉及一种结合韵律和发音学特征的汉语声调识别系统和方法。

背景技术

与英语等西方国家语言不同，汉语是一种带声调的语言。声调是汉语普通话的一种重要属性，在一定程度上承担着构字辨义的作用。同一个音节，如果其声调不同，那么其代表的含义完全不同，对应着不同的汉语字，例如妈、麻、马、骂。汉语中存在四种声调，分别是阴平、阳平、上声、去声，或者称为一声、二声、三声、四声。另外，轻声在语音识别技术中常常也被看作是一种声调。

在语音识别中，对于发音相同或相似的音节，声调能够提供重要的区分性信息。汉语语音识别中声调能够提供区分性信息主要体现两方面：一是具有相同音节的不同汉语字，声调信息是区分它们的唯一属性；二是对应的音节虽然不同但发音相近的汉语字，例如对应音节的声母不同但韵母相同，声调信息同样也是区分它们的重要属性。在现有语音识别系统性能的提高已经达到一定瓶颈的情况下，近年来研究人员对如何利用声调信息来提高语音识别系统的性能进行了不同的尝试，并取得了较好的效果。

目前的声调识别方法是根据音节所对应的语音信号的基频，能量以及时长等韵律信息来判断该音节的声调类型，而没有考虑到人发声时的发音方式，如发音动作(如声带是否震动，鼻腔是否开启)，发音器官位置(如舌头在口腔中的前后位置，上下位置)以及发音器官形状(如发元音时唇部的形状)等信息也在很大程度上影响着声调的类型，这就很难再进一步提高声调的识别精度。

发明内容

本发明的目的在于提出一种汉语声调识别系统及方法，克服现有技术中没有将发音方式信息用于声调识别的缺陷，将发音方式信息和韵律信息一起用于声调识别，从而进一步提高了声调的识别精度。

本发明公开了一种汉语声调识别方法，其具体包括以下步骤：

步骤1、接收语音信号，并提取语音信号的倒谱特征、基频值和能量值；

步骤2、根据所述倒谱特征生成携带音节边界信息的语音序列；其中，所述音节边界信息包括音节发音开始时刻和音节发音结束时刻，以及音节中的声母和韵母的发音开始时刻和发音结束时刻；；

步骤3、根据所述基频值、能量值和所述音节边界信息抽取每一音节对应的基频值和能量值，根据所述每一音节对应的基频值和能量值，计算每一音节的韵律特征；

步骤4、根据所述倒谱特征序列和所述音节边界信息，提取音节的发音方式特征；

步骤5、根据所述韵律特征和所述发音方式特征判断所述语音信号中每一音节的声调类型。

本发明还公开了一种汉语声调识别系统，其包括：

接收语音信号，并提取语音信号的倒谱特征、基频值和能量值的装置；

根据所述倒谱特征生成携带音节边界信息的语音序列的装置；其中，所述音节边界信息包括音节发音开始时刻和音节发音结束时刻，以及音节中的声母和韵母的发音开始时刻和发音结束时刻；；

根据所述基频值、能量值和所述音节边界信息抽取每一音节对应的基频值和能量值，并根据所述每一音节对应的基频值和能量值，进而计算每一音节的韵律特征的装置；