[发明专利]一种基于人工智能的语音识别方法和装置有效
申请号: | 201910907251.0 | 申请日: | 2019-09-24 |
公开(公告)号: | CN110634474B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 苏丹;贺利强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/16;G10L15/26;G10L15/02 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王兆林 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 语音 识别 方法 装置 | ||
本申请实施例公开了一种基于人工智能的语音识别方法和装置,针对待识别语音信号,根据该待识别语音信号的声学特征,确定对应的声学建模描述特征,该声学建模描述特征可以从声学角度清楚的标识待识别语音信号的语音变化程度,相当于去除了原本声学特征中的冗余信息,突出了有效信息的分布状况。根据声学建模描述特征预测语音识别系统中语音识别解码器用于识别该待识别语音信号的解码参数,并采用该解码参数,通过语音识别解码器识别该待识别语音信号。由此,针对不同的待识别语音信号,均可以在线预测适用的解码参数进行识别,相对于固定解码参数,可以具备更好的识别效果。
技术领域
本申请涉及数据处理领域,特别是涉及一种基于人工智能的语音识别方法和装置。
背景技术
一些智能设备具有语音识别功能,智能设备的语音识别系统可以根据获取的语音信号,识别出该语音信号对应的文本。一般语音识别系统中包括声学模型、语言模型和语音识别解码器,在识别语音信号时,语音识别解码器读入这两种模型,对所有可能的文本空间通过两种模型进行打分搜索,寻找到最优的文本路径及最优的识别结果。
语音识别解码器具有解码参数,该解码参数可以控制不同模型(例如声学模型、语言模型)的权重比例,例如包括语言模型权重,静音比例因子,词插入惩罚因子等参数。故语音识别系统的识别精度、速度等均与该解码参数相关。
在一些相关技术中,语音识别解码器的解码参数是根据一些测试集通过人工调整、设计确定的。之后在通过语音识别系统进行语音识别时,解码参数将固定不变。难以适用于不同类型语音的识别,在一些场景下识别效果并不理想。
发明内容
为了解决上述技术问题,本申请提供了一种语音识别方法和装置,针对不同的待识别语音信号,均可以在线预测适用的解码参数进行识别,具备更好的识别效果。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种语音识别方法,所述方法包括:
获取待识别语音信号的声学特征;
根据所述声学特征确定对应的声学建模描述特征;所述声学建模描述特征用于标识所述待识别语音信号的语音变化程度;
根据所述声学建模描述特征,预测语音识别解码器用于所述待识别语音信号的解码参数;
通过所述语音识别解码器,采用所述解码参数对所述待识别语音信号进行识别。
第二方面,本申请实施例提供了一种语音识别装置,所述装置包括获取单元、确定单元、预测单元和识别单元:
所述获取单元,用于获取待识别语音信号的声学特征;
所述确定单元,用于根据所述声学特征确定对应的声学建模描述特征;所述声学建模描述特征用于标识所述待识别语音信号的语音变化程度;
所述预测单元,用于根据所述声学建模描述特征,预测语音识别解码器用于所述待识别语音信号的解码参数;
所述识别单元,用于通过所述语音识别解码器,采用所述解码参数对所述待识别语音信号进行识别。
第三方面,本申请实施例提供了一种用于语音识别的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面中的语音识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面中的语音识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910907251.0/2.html,转载请声明来源钻瓜专利网。