[发明专利]一种语音识别方法、装置、设备及存储介质在审
申请号: | 202210013230.6 | 申请日: | 2022-01-06 |
公开(公告)号: | CN114360542A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 李威;范渊;杨勃 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L15/30;G10L17/22;G10L21/04;H04L67/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 姚莹丽 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 设备 存储 介质 | ||
本申请公开了一种语音识别方法、装置、设备及存储介质。该方法包括:通过浏览器采集用户语音,并按照预设转换规则将所述用户语音转换为目标格式的音频数据;对所述音频数据进行音频波形转换,得到待验证信号波形;将所述待验证信号波形与预先存储的权限用户的波形样本进行比对,判断波形是否匹配;若波形匹配,则通过应用程序接口调用第三方语音识别服务对所述音频数据进行识别,并接收语音识别结果。通过利用浏览器采集用户语音,并将用户语音转换为符合第三方语音识别服务的目标格式的音频数据,以便利用成熟的第三方语音识别服务进行语音识别,最终实现Web网站场景下精确的语音识别。
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音识别方法、装置、设备及存储介质。
背景技术
目前,用户通常通过鼠标操作与Web网站进行交互,但是在某些场景下,如大屏演示环节,通过鼠标进行交互会降低延时的流畅性,存在寻找鼠标导致的卡顿现象等。现有技术中,移动端采用语音识别实现更高效的交互,而如何在Web网站实现精准的语音识别是目前亟需解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种语音识别方法、装置、设备及介质,能够在Web网站实现精准的语音识别。其具体方案如下:
第一方面,本申请公开了一种语音识别方法,包括:
通过浏览器采集用户语音,并按照预设转换规则将所述用户语音转换为目标格式的音频数据;
对所述音频数据进行音频波形转换,得到待验证信号波形;
将所述待验证信号波形与预先存储的权限用户的波形样本进行比对,判断波形是否匹配;
若波形匹配,则通过应用程序接口调用第三方语音识别服务对所述音频数据进行识别,并接收语音识别结果。
可选的,所述通过浏览器采集用户语音,包括:
通过浏览器按照第一循环采集规则采集用户语音;所述第一循环采集规则包括第一预设时间间隔;
相应的,所述接收语音识别结果之后,还包括:
根据所述语音识别结果和预设语音口令库判断所述用户语音是否为唤醒指令;
若所述用户语音不是所述唤醒指令,则执行所述通过浏览器按照第一循环采集规则采集用户语音的操作;
若所述用户语音是所述唤醒指令,则通过浏览器按照第二循环采集规则采集用户语音指令,并通过所述第三方语音识别服务识别所述用户语音指令得到语音指令识别结果,然后根据所述语音指令识别结果和所述预设语音口令库确定出所述语音指令识别结果对应的操作类型,并根据所述操作类型执行相应的交互操作。
可选的,所述根据所述语音指令识别结果和所述预设语音口令库确定出所述语音指令识别结果对应的操作类型之前,还包括:
通过超文本标记语言创建用于配置语音指令和操作类型的映射关系的配置页面,以便根据获取的用户识别需求通过所述配置页面配置语音指令和操作类型的映射关系。
可选的,所述按照预设转换规则将所述用户语音转换为目标格式的音频数据,包括:
确定出所述第三方语音识别服务对应的格式要求;
按照所述格式要求对应的预设转换规则将所述用户语音转换为波形声音文件,以便所述波形声音文件对应的采样率、声道数、音调和音质符合所述第三方语音识别服务的识别规定。
可选的,所述通过浏览器采集用户语音,包括:
通过navigator.mediaDevices.getUserMedia调用麦克风并录制声音,以得到所述用户语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210013230.6/2.html,转载请声明来源钻瓜专利网。