[发明专利]语音处理方法、装置、电子设备和存储介质在审
申请号: | 202010235282.9 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111402908A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 李泽帅;黄远望 | 申请(专利权)人: | OPPO广东移动通信有限公司 |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L19/26;G10L19/24;G10L15/26;G10L15/30;G10L15/05 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 523860 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 电子设备 存储 介质 | ||
本申请提出一种语音处理方法、装置、电子设备和存储介质,其中,方法包括:通过对语音采样得到的原始编码数据解码,得到解码音频数据;若确定解码音频数据的采样率和/或采样位数大于设定阈值,则对解码音频数据降采样,得到目标音频数据;向服务器端发送目标音频数据,以从服务器端获取对目标音频数据语音识别得到的文本。由此,通过对高采样率和/或高采样位数的音频数据进行降采样处理,进而将降采样后的目标音频数据传输至服务器端,以从服务器端获取语音识别得到的文本,从而减少了数据传输量,提高了数据传输速率。
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音处理方法、装置、电子设备和存储介质。
背景技术
语音文字转换(speech-to-text,简称STT)系统是一种将说出的单词转换为文本文件以供后续用途的方式。针对STT,目前常见的方案是直接将采集到的音频文件(如MP3,M4A,AMR等格式音频)传输至服务器,由服务器端对音频数据进行语音转换处理,并返回转换后的文本。
为了保证音质,在录制过程中会大幅度的提高采样率、采样位数以及比特率,从而导致传输的音频文件体积增大,增加了音频文件传输至服务器的过程中的负担,降低了传输效率。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
本申请第一方面实施例提出了一种语音处理方法,包括:
对语音采样得到的原始编码数据解码,得到解码音频数据;
若确定所述解码音频数据的采样率和/或采样位数大于设定阈值,则对所述解码音频数据降采样,得到目标音频数据;
向服务器端发送所述目标音频数据,以从所述服务器端获取对所述目标音频数据语音识别得到的文本。
作为本申请实施例的第一种可能的实现方式,所述对所述解码音频数据降采样,包括:
采用同步采样率转换SSRC算法,对所述解码音频数据降采样。
作为本申请实施例的第二种可能的实现方式,所述采用同步采样率转换SSRC算法,对所述解码音频数据降采样,包括:
对所述解码音频数据中设定长度序列采用有限长单位冲激响应FIR滤波器滤波;
将滤波后得到的设定长度序列后增加所述设定长度的目标序列,得到傅里叶变换的输入序列;其中,所述目标序列中各元素取值为零;
对所述输入序列进行快速傅里叶变换,得到频域序列;
对所述频域序列滤波后,进行快速傅里叶逆变换,以得到时域序列;
对所述时域序列,根据设定的降采样率重采样,得到所述目标音频数据。
作为本申请实施例的第三种可能的实现方式,所述向服务器端发送所述目标音频数据之前,还包括:
若所述目标音频数据中包括双声道数据,剔除所述双声道数据中一个声道数据。
作为本申请实施例的第四种可能的实现方式,所述剔除所述双声道数据中一个声道数据,包括:
确定所述目标音频数据中单一声道数据占用的数据长度;
对所述目标音频数据每间隔所述数据长度,剔除一段符合所述数据长度的数据。
作为本申请实施例的第五种可能的实现方式,所述向服务器端发送所述目标音频数据之前,还包括:
根据所述目标音频数据,进行语音端点检测,以从所述目标音频数据中提取出浊音部分和清音部分,并去除静音部分;
其中,所述浊音部分的能量值大于第一能量阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010235282.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低复杂度的近阈值异或单元
- 下一篇:一种线路板分板装置