[发明专利]语音分析设备、语音分析方法和计算机程序无效
申请号: | 200810135064.7 | 申请日: | 2008-07-25 |
公开(公告)号: | CN101373593A | 公开(公告)日: | 2009-02-25 |
发明(设计)人: | 山田敬一 | 申请(专利权)人: | 索尼株式会社 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/12;G10L15/16;G10L15/14;G10L15/20;G10L15/22;G10L11/04 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 朱胜;高少蔚 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 分析 设备 方法 计算机 程序 | ||
相关申请的交叉引用
本发明包含与2007年7月25日向日本专利局递交的日本专利申请JP 2007-193931相关的主题,其全部内容通过引用合并于此。
技术领域
本发明涉及语音分析设备、语音分析方法和计算机程序,具体涉及一种语音分析设备、语音分析方法和计算机程序,其适合在基于输入语音的韵律特性来执行辨别时使用。
背景技术
近年来,语音识别技术得以广泛应用。相关技术中的语音识别技术是对语音中所包括的信息中的、与音韵相关的信息(在下文中称为“音韵信息”)进行识别的技术。在常见的语音识别技术中,作为包括在语音中的、除了音韵信息之外的信息,与韵律相关的信息(在下文中称为“韵律信息”)并没有总是得到积极的使用。
然而,存在使用韵律信息的相关技术,例如,使用韵律信息来适当地确定句子的基本块之间的边界位置的技术是公知的(例如,参照JP-A-04-66999(专利文献1))。
发明内容
然而,在上述专利文献1中描述的相关技术中,韵律信息辅助地用于改进语音识别技术的准确性,并且韵律信息中包括的各种信息并未得到清楚地辨别。
在人类语音中,存在这样的一些情况:在这些情况下,难以仅仅通过音韵信息来进行辨别。例如,在日本,从音韵信息的观点来看,表示肯定意图的语音“un”和表示否定意图的语音“uun”是相同的语音。在这种 情况下,难以仅仅通过包括在语音中的音韵信息来辨别肯定意图和否定意图,并且必须基于所谓的韵律信息来执行该辨别,其中该韵律信息例如是“语调模式”或“音韵持续时间”信息。
当在语音信号处理中进行与语调相关的处理时,广泛使用对基音频率(或基音周期)的检测。然而,存在以下问题:在对基音频率的检测中,由于噪声等的影响而易于发生误差。此外,在耳语声或具有低基音特性的语音中,在对基音频率的检测中易于发生误差。在易于发生基音频率的检测误差的情况下,或者对于易于发生检测误差的主体,难以基于韵律信息来执行辨别。
本发明致力于解决上述问题,并且期望有效地检测基音频率并基于输入语音的韵律特性来执行具有高可靠性的语音识别,即使是在具有较大噪声影响的语音、耳语声或具有低基音特性的语音的情况下。
本发明人已经提出了(日本专利申请No.2006-161370)一种根据相对基音变化量来执行韵律辨别的方法,其中相对基音变化量是基于输入语音的时间上不同的两个频率特性之间的变化而获得的。
在日本专利申请No.2006-161370中提出的方法中,当基于输入语音的韵律特性来执行辨别时,对相对基音变化量进行计算,并且基于该相对基音变化量来执行识别处理,其中相对基音变化量是基于输入语音的时间上不同的两个频率特性之间的频率方向变化而获得的。
通过使用时间上不同的两个频率特性之间的相对基音变化量来执行韵律辨别,从而使得即使在具有较大的噪声影响的语音、耳语声或具有低基音特性的语音的情况下也能实现鲁棒的辨别,其中,基音频率提取在相关技术中是难以实现的。
此外,本发明人已经提出了(日本专利申请No.2006-325780)一种方法,在该方法中,所述两个频率特性中的一个频率特性是固定的。根据该方法,可以找到适当的具有连续性的相对基音模式,即使在输入语音中包括无音声或无声的音段的情况下,该相对基音模式也与通过一般的基音频率检测所找到的基音模式相同。
在上述通过固定一个频率特性来得到相对基音变化量的相关技术的方法中,所谓双基音或半基音的问题有时会以与一般的检测基音频率的方法相同的方式而发生。该双基音或半基音的问题是这样的问题:由于与是适当基音频率的两倍或一半的频率相对应的分量强于与语音信号中的要 检测的原始适当基音频率相对应的分量,因此错误地检测到该与是适当基音频率的两倍或一半的频率相对应的分量。
本发明致力于解决上述问题,通过本发明的实施例的配置,期望提供一种语音分析设备、语音分析方法以及计算机程序,其能够通过以下方式来实现非常可靠的语音识别:同时计算根据与预先准备的模板频率特性的比较的相对基音差以及根据与时间上相邻的帧的频率特性的比较的相对基音差,更具体地,当作为原始基音频率的整数比的提取误差似乎发生在根据与模板频率特性的比较的相对基音差中时,考虑根据与时间上相邻的帧的比较的相对基音差,对提取误差进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼株式会社,未经索尼株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810135064.7/2.html,转载请声明来源钻瓜专利网。