[发明专利]音频识别解码方法和装置有效
申请号: | 201911407211.6 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111128141B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 谭天;钱彦旻 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/02;G10L15/26;G10L15/06 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 识别 解码 方法 装置 | ||
本发明公开音频识别解码方法和装置,其中,一种音频识别解码方法,包括:提取待测音频中的声学特征;对所述声学特征进行有效音频检测得到有效音频段;将所述有效音频段分别输入各个环境无关的声学模型中得到各个声学模型的第一轮解码结果;结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型;使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码,得到第二轮解码结果;对所述第二轮解码结果使用投票的方法以得到最终解码结果。
技术领域
本发明属于音频识别解码技术领域,尤其涉及音频识别解码方法和装置。
背景技术
现有技术中,存在一些录音笔,能够使用语音识别技术,将长段语音(比如视频,会议,录音)转为文字,用于会议纪要、字幕生成、质检等功能。
发明人在实现本申请的过程中发现,现有技术的方案至少存在以下缺陷:使用场景相比音箱类产品复杂,有噪声干扰时语音识别的精确度低;语音内容更加开放,录音设备更加丰富导致识别难度增加。
发明内容
本发明实施例提供一种音频识别解码方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种音频识别解码方法,包括:提取待测音频中的声学特征;对所述声学特征进行有效音频检测得到有效音频段;将所述有效音频段分别输入至训练好的各个环境无关的声学模型中得到各个声学模型的第一轮解码结果;结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型;使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码,得到第二轮解码结果;以及对所述第二轮解码结果使用投票的方法以得到最终解码结果。
第二方面,本发明实施例提供一种音频识别解码装置,包括:提取模块,配置为提取待测音频中的声学特征;音频检测模块,配置为对所述声学特征进行有效音频检测得到有效音频段;一轮解码模块,配置为将所述有效音频段分别输入训练后的各个环境无关的声学模型中得到各个声学模型的第一轮解码结果;环境自适应模块,配置为结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型;第二轮解码模块,配置为使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码,得到第二轮解码结果;以及结果投票模块,配置为对所述第二轮解码结果使用投票的方法以得到最终解码结果。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的音频识别解码方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的音频识别解码方法的步骤。
本申请的方法和装置提供的方案通过在语音识别自适应时使用了二轮解码的语音识别框架,首先通过环境无关模型得到第一轮识别结果;使用第一轮识别结果和测试音频对音频所处的声学环境进行估计,并对模型进行调整;使用调整后的模型进行第二轮识别,得到识别结果。该方法会根据不同测试环境对声学模型进行不同的微调;不需要对现有的识别框架进行修改,自适应速度快,成本低。对于复杂的声学环境下的语音识别率比普通模型更高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911407211.6/2.html,转载请声明来源钻瓜专利网。