[发明专利]结合韵律和发音学特征的汉语声调识别系统及方法有效
申请号: | 201210482699.0 | 申请日: | 2012-11-23 |
公开(公告)号: | CN102938252A | 公开(公告)日: | 2013-02-20 |
发明(设计)人: | 刘文举;晁浩 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/02 | 分类号: | G10L15/02 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 韵律 发音 特征 汉语 声调 识别 系统 方法 | ||
技术领域
本发明涉及语音识别领域,尤其涉及一种结合韵律和发音学特征的汉语声调识别系统和方法。
背景技术
与英语等西方国家语言不同,汉语是一种带声调的语言。声调是汉语普通话的一种重要属性,在一定程度上承担着构字辨义的作用。同一个音节,如果其声调不同,那么其代表的含义完全不同,对应着不同的汉语字,例如妈、麻、马、骂。汉语中存在四种声调,分别是阴平、阳平、上声、去声,或者称为一声、二声、三声、四声。另外,轻声在语音识别技术中常常也被看作是一种声调。
在语音识别中,对于发音相同或相似的音节,声调能够提供重要的区分性信息。汉语语音识别中声调能够提供区分性信息主要体现两方面:一是具有相同音节的不同汉语字,声调信息是区分它们的唯一属性;二是对应的音节虽然不同但发音相近的汉语字,例如对应音节的声母不同但韵母相同,声调信息同样也是区分它们的重要属性。在现有语音识别系统性能的提高已经达到一定瓶颈的情况下,近年来研究人员对如何利用声调信息来提高语音识别系统的性能进行了不同的尝试,并取得了较好的效果。
目前的声调识别方法是根据音节所对应的语音信号的基频,能量以及时长等韵律信息来判断该音节的声调类型,而没有考虑到人发声时的发音方式,如发音动作(如声带是否震动,鼻腔是否开启),发音器官位置(如舌头在口腔中的前后位置,上下位置)以及发音器官形状(如发元音时唇部的形状)等信息也在很大程度上影响着声调的类型,这就很难再进一步提高声调的识别精度。
发明内容
本发明的目的在于提出一种汉语声调识别系统及方法,克服现有技术中没有将发音方式信息用于声调识别的缺陷,将发音方式信息和韵律信息一起用于声调识别,从而进一步提高了声调的识别精度。
本发明公开了一种汉语声调识别方法,其具体包括以下步骤:
步骤1、接收语音信号,并提取语音信号的倒谱特征、基频值和能量值;
步骤2、根据所述倒谱特征生成携带音节边界信息的语音序列;其中,所述音节边界信息包括音节发音开始时刻和音节发音结束时刻,以及音节中的声母和韵母的发音开始时刻和发音结束时刻;;
步骤3、根据所述基频值、能量值和所述音节边界信息抽取每一音节对应的基频值和能量值,根据所述每一音节对应的基频值和能量值,计算每一音节的韵律特征;
步骤4、根据所述倒谱特征序列和所述音节边界信息,提取音节的发音方式特征;
步骤5、根据所述韵律特征和所述发音方式特征判断所述语音信号中每一音节的声调类型。
本发明还公开了一种汉语声调识别系统,其包括:
接收语音信号,并提取语音信号的倒谱特征、基频值和能量值的装置;
根据所述倒谱特征生成携带音节边界信息的语音序列的装置;其中,所述音节边界信息包括音节发音开始时刻和音节发音结束时刻,以及音节中的声母和韵母的发音开始时刻和发音结束时刻;;
根据所述基频值、能量值和所述音节边界信息抽取每一音节对应的基频值和能量值,并根据所述每一音节对应的基频值和能量值,进而计算每一音节的韵律特征的装置;
根据所述倒谱特征序列和所述音节边界信息,提取音节的发音方式特征的装置;
根据所述韵律特征和所述发音方式特征判断所述语音信号中每一音节的声调类型的装置。
本发明提取蕴含发音方式信息的发音特征,并将发音特征与韵律特征共同用于汉语声调的识别,从而解决了发音时发音方式对声调类型产生影响的问题。与未能将发音方式信息用于声调识别的现有声调识别方法相比,本发明所提出的声调识别方法由于考虑到了发音方式对声调的影响,所以声调识别的正确率更高。
附图说明
图1为本发明的一种汉语声调识别方法的流程图;
图2为本发明中用于提取发音方式特征的阶层式神经网络的结构示意图;
图3为本发明中的多层感知器MLP的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为根据本发明的一种汉语声调识别方法的流程图。其中,待识别的语音信号为连续语音,对应一个语句,所述连续语音中每一个音节的声调进行识别。
如图1所示,所述汉语声调识别方法包括如下步骤:
步骤101:接收语音信号,并对所述语音信号进行频谱分析,提取语音信号的倒谱特征序列,基频值序列和能量值序列;其中,所述倒谱特征序列中的每一个为一个多维向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210482699.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能充电设备及其充电方法
- 下一篇:通信式道路交通信号倒计时显示器