[发明专利]频率轴伸缩系数估计设备、系统方法以及程序有效
申请号: | 200880108790.8 | 申请日: | 2008-09-22 |
公开(公告)号: | CN101809652A | 公开(公告)日: | 2010-08-18 |
发明(设计)人: | 江森正 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L13/06;G10L15/02;G10L15/04;G10L15/06 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 宋鹤;南霆 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 频率 伸缩 系数 估计 设备 系统 方法 以及 程序 | ||
1.一种语音识别系统,其特征在于,包括:
伸缩系数估计装置,其利用语音/非语音的两个级别的概率模型,来估 计表示说话人的声道长度的差异的伸缩系数;
变换装置,其使用由所述伸缩系数估计设备求出的伸缩系数来进行倒 谱变换;
声学模型存储装置,其存储表示音韵信息的出现概率的概率模型;以 及
语音识别装置,其利用变换后的倒谱、以及存储在所述声学模型存储 装置中的所述表示音韵信息的出现概率的概率模型来进行语音识别;
所述伸缩系数估计装置包括:
标签信息生成装置,其输出语音/非语音的标签信息;
伸缩模型存储装置,其存储表示语音/非语音的出现概率的概率模型; 以及
伸缩估计装置,其利用所述表示语音/非语音的出现概率的概率模型、 所述语音/非语音的标签、以及倒谱,来计算频率轴方向上的伸缩系数。
2.如权利要求1所述的语音识别系统,其特征在于,
所述音韵信息是音素单位的音韵信息。
3.如权利要求1所述的语音识别系统,其特征在于,
还包括分析装置,该分析装置将输入语音信号截出预定区间,并对截 出的预定区间实施预定变换来导出倒谱,
所述变换装置利用来自所述伸缩估计装置的伸缩系数,对由所述分析 装置求出的倒谱进行变换。
4.一种语音合成系统,其特征在于,包括:
标签信息生成装置,其输出语音/非语音的标签信息;
伸缩模型存储装置,其存储表示语音/非语音的出现概率的概率模型;
伸缩系数估计装置,其利用语音/非语音的两个级别的概率模型来估计 表示说话人的声道长度的差异的伸缩系数,并且,其利用所述表示语音/非 语音的出现概率的概率模型、所述语音/非语音的标签、以及倒谱,来计算 频率轴方向上的所述伸缩系数;
变换装置,其使用由所述伸缩系数估计设备求出的伸缩系数来进行倒 谱变换;以及
波形合成装置,其利用由所述变换装置进行了变换的倒谱来合成波 形。
5.如权利要求4所述的语音合成系统,其特征在于,
还包括分析装置,该分析装置将输入语音信号截出预定区间,并对截 出的预定区间实施预定变换来导出倒谱,
所述变换装置利用来自所述伸缩估计装置的伸缩系数,对由所述分析 装置求出的倒谱进行变换。
6.如权利要求1所述的语音识别系统,其特征在于,
所述伸缩模型存储装置具有多个表示语音/非语音的出现概率的概率模 型,
所述伸缩系数估计装置计算以下次数的伸缩系数,所述次数等于存储 在所述伸缩模型存储装置中的模型个数,
所述语音识别系统还包括:
伸缩系数决定装置,其从所述伸缩系数估计装置所求出的伸缩系数中 决定伸缩系数,并输出该伸缩系数和与该伸缩系数对应的模型信息;以及
声学模型切换装置,其基于所述模型信息来选择存储在所述声学模型 存储装置中的声学模型并将所选声学模型提供给所述语音识别装置,
所述变换装置利用由所述伸缩系数决定装置决定的伸缩系数来进行倒 谱变换。
7.一种语音识别方法,其特征在于,
在存储装置中准备表示语音/非语音的出现概率的概率模型,
并且,所述语音识别方法包括:
输出语音/非语音的标签信息的步骤;
利用语音/非语音的两个级别的概率模型来估计表示说话人的声道长度 的差异的伸缩系数,且利用所述表示语音/非语音的出现概率的概率模型、 所述语音/非语音的标签、以及倒谱来计算频率轴方向上的所述伸缩系数的 步骤;
利用所述伸缩系数来进行倒谱变换的步骤;以及
利用通过在所述进行倒谱变换的步骤中进行了变换的所述倒谱、以及 表示音韵信息的出现概率的概率模型来进行语音识别的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880108790.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:输入装置
- 下一篇:提供语音到语音翻译和模拟人类属性的化身的移动无线显示器