[发明专利]基于置信度得分的语音标签方法和装置无效
申请号: | 201080001519.1 | 申请日: | 2010-06-29 |
公开(公告)号: | CN102439660A | 公开(公告)日: | 2012-05-02 |
发明(设计)人: | 何磊;赵蕤 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/10;G10L15/18 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 杨晓光;周春燕 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 置信 得分 语音 标签 方法 装置 | ||
技术领域
本发明涉及信息处理技术,具体地,涉及基于置信度得分的语音标签方法和装置。
背景技术
语音标签技术是语音识别技术中的一种应用,其尤其在嵌入式语音识别系统中广泛采用。
基于语音标签技术的系统工作过程如下:首先,执行语音注册过程,即用户向系统输入注册语音,系统将该注册语音转换为代表该语音的发音的标签,并将该发音标签形成为与该注册语音对应的语音标签词条添加到该系统的识别网络中;然后,执行语音识别过程,即在用户输入测试语音时,系统基于其含有语音标签词条的识别网络对测试语音进行识别,以确定其内容。通常,语音标签系统的识别网络不仅仅含有注册语音的语音标签词条,而且还含有由词典或者字音转换模块提供发音的词条,在此称之为词典词条。
最初的语音标签技术通常基于模板匹配来实现,即:在注册过程中,对注册语音提取出一个或多个模板作为该注册语音的标签;在识别过程中,利用动态时间规整算法(Dynamic Time Warping,DTW)对测试语音与模板标签进行匹配。近年来,随着基于音素的隐含马尔科夫模型(HiddenMarkov Model,HMM)在语音识别中的普遍应用,音素序列作为注册语音的发音标签已成为主流的语音标签方法。需要注意的是,根据语言种类的不同,音素也可以换成其它语音单元,例如对于中文而言,可以采用声母、韵母序列作为语音标签。
在采用音素序列作为注册语音的发音标签的方法中,音素序列是通过对注册语音进行音素识别而得到的。音素序列标签的优势在于:首先,音素序列标签比模板标签占用内存少;其次,音素序列标签词条更容易与词典词条结合构成新的词条。音素序列标签的这些优势都有助于扩展识别网络所能够提供的词条数目。
但是,音素序列标签也有一定的不足:首先,以目前的音素识别水平来说,音素识别错误一般不可避免,这样就会导致音素序列标签不能够完全准确地代表注册语音的发音,从而造成识别错误;其次,注册语音与测试语音之间可能存在着不匹配,这样也会导致识别错误。
具体而言,假设注册语音为“王明(wang ming)”,则对应于该注册语音的正确的声母韵母序列应该是:w ang m ing。但是,由于识别水平,语音识别系统可能对该注册语音给出不正确的识别结果、例如给出声母韵母序列“w an m ing”,从而该不正确的序列“w an m ing”将作为注册语音“王明”的发音标签被加入到识别网络中。在此情况下,在测试语音也是“王明”的情况下,如果系统判断其与识别网络中的序列“w an m ing”最接近,那么识别结果将是正确的,但是由于系统可能会判断该测试语音与识别网络中其它的序列最接近,所以会得到错误的识别结果。
因此,在基于音素序列标签的语音标签技术中,减少由于上述原因而导致的识别错误成为目前的一个研究重点。
为了克服上述的音素序列标签方法的不足,研究者提出了多发音注册的方案:对于一个注册语音,用基于不同的音素序列的多个发音标签来构成与该注册语音对应的一个语音标签词条。具体地,在对注册语音进行音素识别时,取前N个最优的音素序列识别结果或者音素格识别结果作为该注册语音的发音标签。
具体地,仍以注册语音“王明”为例,假设语音识别系统对该注册语音进行识别并给出了声学得分由大到小排列的三个最优的声母韵母序列:
1.“w an m ing”;
2.“w an m in”;
3.“w ang m ing”;
则在多发音注册中,这三个序列被组合为对应于注册语音“王明”的一个语音标签词条,加入到识别网络中。从而,在识别过程中,识别网络只要判断测试语音与这三个序列中的任何一个序列最接近,就可以将测试语音与注册语音“王明”相匹配。这样识别率会被提高。
采用这种多发音注册的方式,可以很明显地减少音素识别错误对语音识别所带来的负面影响,也可以降低因注册语音与测试语音之间的不匹配所造成的识别性能下降。
但是,由于对于一个注册语音而言,在单发音注册中是一个音素序列被加入到识别网络,而在多发音注册中则是多个音素序列被加入到识别网络中,所以多发音注册会增大识别网络的规模。并且,一个语音标签词条由多个发音序列构成会增加识别网络的混淆度,尤其会明显降低语音标签系统中词典词条的识别性能。
发明内容
本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一种基于置信度得分的语音标签方法和装置,以便在基于多发音注册的语音标签技术中,基于置信度得分来优化语音标签,从而减小包含语音标签的识别网络的混淆度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080001519.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种闪烁灯电路
- 下一篇:一种收发光器件TO同轴小型化封装方法