[发明专利]音频处理方法和装置有效
申请号: | 202110547979.4 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113284514B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 陈昌儒;杨惠;吴雨璇;徐培来 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/03 |
代理公司: | 北京睿派知识产权代理有限公司 11597 | 代理人: | 刘锋 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 | ||
本发明实施例公开了一种音频处理方法和装置,通过确定待检测音频和对应的标准文本,对待检测音频对应的音频片段进行特征提取确定对应的音频特征。并行对各所述音频特征解码,得到对应于至少一个根据表征文本确定的语音单位序列的解码概率序列,以根据述解码概率序列计算待检测音频对应的至少一个发音特征,评价待检测音频的可靠性。本发明实施例通过将待检测音频划分为多个音频片段,并行对各音频片段提取得到的音频特征进行解码,以确定待检测音频的可靠性,提升了音频检测效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种音频处理方法和装置。
背景技术
目前语音处理被广泛应用在语音学习领域中,对人机交互过程中获取的语音进行测评,以评价用户发音的流畅程度和准确程度。现有技术中对语音测评服务的处理速度较慢,测评效率低下且使用者实时体验效果不佳。
发明内容
有鉴于此,本发明实施例提供了一种音频处理方法和装置,旨在提高语音测评过程中的处理效率,提高使用者的实时交互体验。
第一方面,本发明实施例提供了一种音频处理方法,所述方法包括:
确定待检测音频和对应的标准文本;
确定所述待检测音频对应的音频片段;
对各所述音频片段进行特征提取,以确定对应的音频特征,所述音频特征中包括多个按顺序排列的帧特征;
并行对各所述音频特征解码,得到对应于至少一个语音单位序列的解码概率序列,各所述语音单位序列根据标准文本确定,包括多个按顺序排列的语音元素,所述解码概率序列中包括多个解码概率,各所述解码概率用于表征音频特征中的对应帧特征对应于各所述语音元素的概率;
根据各所述解码概率序列计算待检测音频对应的至少一个发音特征;
根据各所述发音特征确定待检测音频的可靠性。
进一步地,所述确定所述待检测音频对应的音频片段包括:
按预定分割规则分割待检测音频,得到多个按顺序排列的音频片段。
进一步地,所述对各所述音频片段进行特征提取,以确定对应的音频特征包括:
在各所述音频片段中确定目标音频片段;
对所述目标音频片段进行分帧处理以确定对应的帧序列;
依次确定所述帧序列中各帧的帧特征;
根据顺序排列的各所述帧特征确定所述目标音频片段对应的音频特征。
进一步地,所述依次确定所述帧序列中各帧的帧特征包括:
依次提取所述帧序列中各帧的Fbank特征、能量特征和基频特征;
根据各帧对应的Fbank特征、能量特征和基频特征确定帧特征。
进一步地,所述方法还包括:
根据对应音频片段的顺序将各所述音频特征依次加入特征队列。
进一步地,所述并行对各所述音频特征解码包括:
根据预设规则从所述特征队列中依次获取多个音频特征;
通过多个线程并行对各所述音频特征进行特征解码。
进一步地,所述并行对各所述音频特征解码包括:
确定所述标准文本对应的语音单位序列,所述语音单位序列中的各所述语音元素中包括至少一个语音单位,所述语音单位为音素、单词、句子以及段落中的一个;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110547979.4/2.html,转载请声明来源钻瓜专利网。