[发明专利]语音识别方法、装置、计算机设备及存储介质有效
申请号: | 201910740387.7 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110288999B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 唐立亮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/30;G10L15/02;G10L25/51 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种语音识别方法、装置、计算机设备及存储介质,属于人工智能技术领域。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能软件技术包括语音技术,语音技术的关键技术有自动语音识别技术,自动语音识别技术是指自动识别人的语音以得到文字信息的过程。本发明通过仅基于第二数据包进行语音识别,减少了参与语音识别的数据包的数量,减少了运算时间。
本申请是申请日为2019年07月02日、申请号为201910589578.8、发明名称为“语音识别方法、装置、计算机设备及存储介质”的分案申请。
技术领域
本发明涉及人工智能技术领域,特别涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
语音识别技术是指识别人的语音以得到文字信息的过程。随着人工智能技术的发展,语音识别技术被广泛应用于多种场景,例如,手机中输入法应用可以识别用户语音,以显示对应文字,智能音箱、智能电视等识别用户语音,以执行对应指令。
相关技术中,语音识别过程可以包括:用户发出语音时,终端将实时采集的语音数据封装为多个数据包并向服务器发送。服务器实时识别每个数据包所对应的文字,并向终端返回该多个数据包对应的文字。
上述语音识别时,需要对每个数据包均进行语音识别,导致语音识别的响应时间较长,语音识别效率较低。
发明内容
本发明实施例提供了一种语音识别方法、装置、计算机设备及存储介质,能够解决语音识别过程要么存在准确率低的问题,要么存在识别效率低的问题。所述技术方案如下:
一方面,提供了一种语音识别方法,所述方法包括:
获取至少两个数据包,所述至少两个数据包用于承载目标语音消息;
对所述至少两个数据包中的第二数据包内语音数据进行切分,得到多帧语音数据,所述第二数据包为所述至少两个数据包中除最后一个数据包以外的数据包;
对每帧语音数据进行声学特征提取,得到所述每帧语音数据的声学特征;
根据第三目标数目和第四目标数目,获取所述第三目标数目的帧集合,所述第三目标数目用于指示一次声学似然得分确定过程所采用的帧集合的数目;
基于所述第三目标数目的帧集合中每个帧集合的声学特征,确定所述每帧语音数据的声学似然得分;
根据所述每帧语音数据的声学似然得分,确定所述每帧语音数据的语音单元;
根据所述多帧语音数据的至少两个语音单元,确定所述多帧语音数据对应的字符或字符串;
根据所述第二数据包对应的字符,确定所述目标语音消息对应的目标字符串。
在一种可能实现方式中,所述根据所述第二数据包与所述第一数据包之间的关联强度以及所述第二数据包中每帧语音数据的信号强度,获取所述第二数据包所承载语音消息的第二信号能量包括:
获取所述第二数据包在所述至少两个数据包中的排列位置;
根据所述第二数据包中每帧语音数据的信号强度和所述第二数据包在所述至少两个数据包的排列位置,获取所述第二数据包所承载语音消息的第二信号能量;
其中,所述排列位置用于指示所述第二数据包与所述第一数据包的关联强度,所述第二数据包的排列位置越靠后,与所述第一数据包之间的关联强度越大;所述第二数据包的排列位置越靠前,与所述第一数据包之间的关联强度越小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910740387.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种茶吧机声控系统
- 下一篇:一种语音识别方法、装置