[发明专利]一种语音识别方法和相关装置在审
申请号: | 202210042387.1 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114360510A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 袁有根;吕志强;黄申 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 罗晓敏 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 相关 装置 | ||
本申请实施例公开了一种语音识别方法和相关装置,至少涉及人工智能中的语音识别技术,将待识别的语音数据作为声学模型中时延神经网络的输入数据,由于该时延神经网络的输出层包括与多个音节分别对应的声学建模单元,使得通过时延神经网络能以音节为识别粒度,得到语音数据所包括语音帧分别对应的音节概率分布。通过输出层以音节进行识别时,可以结合语音帧的前后音节信息,基于发音规则对语音帧所属音节进行辅助判断,以输出更为精准的音节概率分布。而且由于音节一般由一个或多个音素组成,具有更高的容错能力,不仅基于音节概率分布获取更为准确的确定语音识别结果,还对待识别的语音数据质量要求不高,有效扩展了语音识别技术的适用场景。
技术领域
本申请涉及语音识别领域,特别是涉及一种语音识别方法和相关装置。
背景技术
通过语音识别技术可以为用户提供语音内容的识别服务,该技术可以应用于各种场景中,例如语音转文字、语音唤醒、人机交互等场景。在具体实现中,可以通过声学模型提取待识别的语音数据的声学特征,并基于声学特征确定对应的语音识别结果。
相关技术主要以音素(phone)作为声学模型的建模单元,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。
但是,音素的建模粒度较细,这种细粒度的语音识别方式对待识别语音数据的质量要求很高,细微的发音误差都可能会直接影响识别结果。由此导致语音识别技术难以适应一些语音识别场景。
发明内容
为了解决上述技术问题,本申请提供了一种语音识别方法和相关装置,用于提高语音识别结果的准确率,扩展语音识别技术的使用场景。
一方面,本申请实施例提供一种语音识别方法,所述方法包括:
获取声学模型和待识别的语音数据,所述声学模型包括时延神经网络,所述时延神经网络的输出层包括与多个音节分别对应的声学建模单元;
将所述语音数据作为所述时延神经网络的输入数据,通过所述时延神经网络确定所述语音数据所包括语音帧分别对应的音节概率分布,所述音节概率分布用于标识所述语音帧与所述多个音节分别对应的概率;
根据所述音节概率分布确定所述语音数据对应的语音识别结果。
另一方面,本申请实施例提供一种语音识别装置,所述装置包括获取单元、音节概率分布确定单元和语音识别结果确定单元;
所述获取单元,用于获取声学模型和待识别的语音数据,所述声学模型包括时延神经网络,所述时延神经网络的输出层包括与多个音节分别对应的声学建模单元;
所述音节概率分布确定单元,用于将所述语音数据作为所述时延神经网络的输入数据,通过所述时延神经网络确定所述语音数据所包括语音帧分别对应的音节概率分布,所述音节概率分布用于标识所述语音帧与所述多个音节分别对应的概率;
所述语音识别结果确定单元,用于根据所述音节概率分布确定所述语音数据对应的语音识别结果。
另一方面,本申请实施例提供一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210042387.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蠕墨铸铁玻璃模具及其制备方法
- 下一篇:基于参考的语音增强方法