[发明专利]一种语音识别方法和装置有效

申请号：	201310231499.2	申请日：	2013-06-09
公开（公告）号：	CN103337241A	公开（公告）日：	2013-10-02
发明（设计）人：	苏牧;李鹏;李轶杰;梁家恩	申请（专利权）人：	北京云知声信息技术有限公司
主分类号：	G10L15/10	分类号：	G10L15/10;G10L15/26
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100083 北京市海淀区中***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音识别方法，应用于移动终端，其特征在于，包括：

接收输入的语音片段；

根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分；

根据所述声音片段的输入长度，以帧为单位，将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分，得到n个声学总分，n为大于等于1的整数，其中总分最高的设定为所述语音片段的最优声学总分；

计算在输入长度内的所述语音片段每一帧的最高声学得分之和，得到背景声学总分；

比对最优声学总分和背景声学总分是否满足预订阈值；

如果是，则确定所述语音片段为最优声学得分所对应的词汇；

如果否，则确定所述语音片段为错误的输入，拒识所述语音片段。

2.根据权利要求1所述的方法，其特征在于，所述计算在输入长度内的所述语音片段每一帧的最高声学得分之和，得到背景声学总分，还包括：

使用近似算法计算背景声学总分，具体为：

将高斯混合模型GMM回退到单高斯模型；

对获得的单高斯模型进行聚类操作，得到多个聚类码本模型，并记录对应所述聚类码本模型的高斯混合模型唯一对应的ID；

根据所述多个聚类码本模型计算输入的所述语音片段的每一帧的声学得分；

确定每一帧声学得分最高的聚类码本模型，根据所记录的所述高斯混合模型唯一对应的ID确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型；

根据所述确定对应所述每一帧声学得分最高的聚类码本模型的高斯混合模型计算输入的所述语音片段的声学得分，确定每一帧最高的声学得分；

根据所述语音片段的输入时间长度对所述每一帧最高的声学得分求和，得到背景声学总分。

3.根据权利要求2所述的方法，其特征在于，所述将高斯混合模型GMM回退到单高斯模型具体为：

4.根据权利要求1所述的方法，其特征在于，所述根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分，还包括：

使用近似算法计算声学得分，具体计算公式为：

其中，w_m为每个码本高斯占总码本高斯的权重为每一维进行SDC后的码本高斯的近似计算码本高斯得分，K为每一维进行SDC后的码本高斯的个数。

5.根据权利要求4所述的方法，其特征在于，对所述取log后进行加运算。

6.一种语音识别装置，应用于移动终端，其特征在于，包括：

语音接收单元，用于接收输入的语音片段；

聚类计算单元，用于根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分；

比较累加单元，用于根据所述声音片段的输入长度，以帧为单位，将得到的所述多个声学得分和移动终端词汇库中的n个词汇进行比对并累加每一帧比对后的声学得分，得到n个声学总分，n为大于等于1的整数，其中总分最高的设定为所述语音片段的最优声学总分；

背景声学总分计算单元，用于计算在输入长度内的所述语音片段每一帧的最高声学得分之和，得到背景声学总分；

比对判断单元，用于比对最优声学总分和背景声学总分是否满足预订阈值；

如果是，则执行识别单元；如果否，则执行拒识单元；

所述识别单元，用于确定所述语音片段为最优声学得分所对应的词汇；

所述拒识单元，用于确定所述语音片段为错误的输入，拒识所述语音片段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司，未经北京云知声信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310231499.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载