[发明专利]语音辨识方法及其电子装置有效

专利信息
申请号: 201310489578.3 申请日: 2013-10-18
公开(公告)号: CN103578471A 公开(公告)日: 2014-02-12
发明(设计)人: 张国峰;朱逸斐 申请(专利权)人: 威盛电子股份有限公司
主分类号: G10L15/183 分类号: G10L15/183;G10L15/28
代理公司: 北京林达刘知识产权代理事务所(普通合伙) 11277 代理人: 刘新宇
地址: 中国台湾新北*** 国省代码: 中国台湾;71
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 辨识 方法 及其 电子 装置
【说明书】:

技术领域

发明有关于一种语音辨识技术,且特别是有关于一种可用于识别不同语言的语音辨识方法及其电子装置。

背景技术

语音辨识(speech recognition)毫无疑问的是一种热门的研究与商业课题。语音辨识通常是对输入的语音取出特征参数,再与数据库的样本相比对,找出与输入相异度低的样本取出。

目前常见做法大都是先采集语音语料(如录下来的人的语音),然后由人工进行标注(即,对每一句语音标注上对应的文字),然后使用这些语料来训练声学模型和声学词典。声学模型是一种统计分类器。目前做法常使用混合高斯模型(Gaussian Mixture Model),它将输入的语音分类到基本的音素(phone)。而音素是组成需要识别的语言的基本音标及音间过渡(transition between phones,每个音素可以有多个状态,比如3个,叫做三音素(tri-phone),一个音标通常用一个音素表示,这个音素的前面的状态包含前面一个音素过渡到这个音素的状态,后面的状态包含这个音素过渡到下面一个音素的状态。),此外,加上一些非语音的音素,如咳嗽声。而声学词典一般是由被识别语言的单词组成,通过隐藏式马可夫模型(Hidden Markov Model,HMM)将声学模型输出的音组成单词。

然而,目前的做法存在如下问题。问题1:倘若用户的非标准发音(如翘舌音不分、前后鼻音不分等)进入声学模型,将会造成声学模型的模糊性变大。如拼音“in”在声学模型中会给出比较大的概率为“ing”,而这个为了不标准发音的妥协,会导致整体错误率的升高。问题2:由于不同地区的发音习惯不同,非标准发音有多种变形,导致声学模型的模糊性变得更大,因而使得识别准确率的进一步降低。问题3:无法识别方言,如标准普通话、沪语、粤语、闽南语等。

发明内容

本发明提供一种语音辨识方法及其电子装置,可自动地辨识出语音信号所对应的语言。

本发明的语音辨识方法,用于电子装置。该语音辨识方法包括:自语音信号获得特征向量;输入特征向量至多个语音辨识模块,并自上述语音辨识模块分别获得多个字串概率及多个候选字串,其中上述语音辨识模块分别对应至多种语言;以及选择上述字串概率中最大者所对应的候选字串,以作为语音信号的辨识结果。

在本发明的一实施例中,上述输入特征向量至上述语音辨识模块,并自上述语音辨识模块分别获得上述字串概率与上述字串的步骤包括:输入特征向量至上述各个语音辨识模块的声学模型,并基于对应的声学词典,获得相对于各种语言的候选词;以及输入上述候选词至上述各语音辨识模块的语言模型,以获得各种语言对应的候选字串以及字串概率。

在本发明的一实施例中,上述语音辨识方法还包括:基于各种语言对应的语音数据库,经由训练而获得上述声学模型与上述声学词典;以及基于各种语言对应的语料库,经由训练而获得上述语言模型。

在本发明的一实施例中,上述语音辨识方法还包括:通过输入单元接收语音信号。

在本发明的一实施例中,上述自语音信号获得特征向量的步骤包括:将语音信号切割为多个音框,并自各音框取得多个特征参数,借以获得特征向量。

本发明另提出一种电子装置,包括输入单元、储存单元以及处理单元。输入单元用以接收语音信号。储存单元中储存有多个程序码片段。处理单元耦接至输入单元以及储存单元。处理单元通过上述程序码片段来驱动多种语言所对应的多个语音辨识模块,并执行:自语音信号获得特征向量,并且输入特征向量至上述语音辨识模块,而自上述语音辨识模块分别获得多个字串概率及多个候选字串;以及选出上述字串概率中最大者所对应的候选字串。

在本发明的一实施例中,该处理单元输入该特征向量至每一所述语音辨识模块的声学模型,并基于对应的声学词典,获得相对于每一所述语言的候选词,并且,该处理单元输入所述候选词至每一所述语音辨识模块的语言模型,以获得所述语言对应的所述候选字串以及所述字串概率。

在本发明的一实施例中,该处理单元基于所述语言各自对应的语音数据库,经由训练而获得上述声学模型与上述声学词典,并且基于所述语言各自对应的语料库,经由训练而获得上述语言模型。

在本发明的一实施例中,该处理单元通过所述程序码片段来驱动一特征撷取模块,以执行:切割该语音信号为多个音框,并自每一所述音框取得多个特征参数,借以获得该特征向量。

在本发明的一实施例中,上述电子装置还包括有一输出单元。此输出单元用以输出上述字串概率中最大者所对应的候选字串。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于威盛电子股份有限公司,未经威盛电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310489578.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top