[发明专利]一种音素自动切分方法无效

申请号：	201010215095.0	申请日：	2010-06-30
公开（公告）号：	CN102314878A	公开（公告）日：	2012-01-11
发明（设计）人：	孟智平	申请（专利权）人：	上海视加信息科技有限公司
主分类号：	G10L19/00	分类号：	G10L19/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	200051 上海市长宁***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音素自动切分方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音编码、语音传输、语音电话等领域，尤其涉及一种音素自动切分方法。

背景技术

随着现代网络技术的发展，通过因特网传送语音信号的应用越来越多，尤其是在线聊天工具的迅速普及，已使网络电话成为一种受人喜爱的沟通工具。目前大部分的网络电话都采用G.711、G.723、G.726、G.729等通用的编码技术，网络传送中的语音多采用压缩比较高的中、低速率语音编码。低速率的语音压缩编码虽然给信道的传输带来了方便，也节省了存储空间，但是由于大部分语音编码都是有损压缩，语音质量势必会受到损失。这些技术的共同点都是利用人耳感知的先验知识对语音进行有损压缩。专利号00126112.6公开了一种采用单帧、变帧长、帧内比特自适应的低速语音压缩编码方法，可使编码压缩的能力进一步提高，进而提高了数据传输效率。这些编码方式都是针对人耳听觉特点，设计人耳能容忍的有损压缩方案来达到减小编码速率的目的的。实际上，如果只是针对人的语音进行编码，不涉及音乐等其他问题，压缩率还可以进一步改进。

语音学研究表明，音素是从音质角度划分的最小的语音单位，从发音特征上看，人们发出的语音都是由不同的音素构成的，一个音素或者多个音素的组合，形成了不同的音节，如每一个汉字的发音即是一个音节。经过统计分析发现，人发音的音素个数其实是有限的，而且有一些音素是可以由其他一些音素组合而成，由此可知，每一种语言便可统计出构成该语言发音特征的基本音素。根据国际音标协会组织2005年最近公布结果，世界上已知的发音中，肺部气流音有59个，非肺部气流音有14个，其他辅音12个，单元音28个，其他的发音，不外乎这些音的组合。

网络语音传输或电话语音通信时，通常收听方所关心的仅是说话方发出的语音信息，如果传输或通信的内容只有人说话的语音信息，没有其他声音或者滤掉其他声音，则语音传输在已有方法基础上还可以进一步压缩。

此外，通过对连续语音流的波形及频谱包络分析发现，无论是一次连续的语音流所生成的同一波形中，还是不同语音流所生成的不同波形中，很多波形是相同或非常相似的，如果在编码之前能够对这些波形进行处理，对具有共同特征的波形段进行分析，建立波形模型库，为不同的波形赋予编号，便可以改进已有的以帧为单位进行采样的编码方式，而是仅对波形对应的编号进行编码，从而极大地提高编码的效率。

本发明以语音基元为编码单位，设计了一种更优的语音编码方案。该方案根据获得的连续语音流数据，提取相应的语音基元，构建语音基元模型库，通过对获得的连续语音流进行切分，将切分的语音基元与模型库中的语音基元进行匹配，获得当前语音的语音基元编号。于是原先需要上百维的频谱信号或者十几维的倒谱信号来描述的语音信号，现在仅用一个整数编号就可以描述。在解码的时候，根据此整数，从库中获得真正的谱信号重建语音，从而大大提高语音的压缩率。

发明内容

为了对语音流数据进行压缩编码，使语音数据在低带宽或网络性能较差情况下进行有效传输，本发明首先公开了一种生成语音基元模型库的方法，包括以下步骤：

获取大量语音流样本数据，并将这些语音流数据进行切分，以获取由不同音素或不同波形为单位所构成的语料库，将构成语料库的基本单元称为语音基元；

提取语音基元的特征，构成特征向量；

对语音基元特征向量样本进行模糊聚类，将所有数据样本分为N类，得到对应的聚类中心和隶属度函数；

分析各类语音基元的特征，进而确定拟建语音基元模型库所需的最少语音基元；

对各类语音基元的语音特性进行分析处理，以获得每一类语音基元的频谱包络特征，并将其存储于语音基元模型库中，最终构成语音基元模型库；

所述对语音流数据进行切分，是以音素或者帧为单位，对连续语音流进行切分；

所述以音素为单位进行切分是指采用音素自动切分算法，将连续的语音流自动地切分成由不同的音素所构成的音素集合；

所述以帧为单位进行切分是指以某一时间帧为单位，将连续的语音流切分成由不同波形所构成的语音波形集合；

所述语音基元模型库是指构成可理解的语音流所需的最小的音素样本库或最小的语音波形样本库；

所述音素自动切分算法包括以下步骤：