[发明专利]音频处理方法和装置有效
申请号: | 202110547979.4 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113284514B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 陈昌儒;杨惠;吴雨璇;徐培来 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/03 |
代理公司: | 北京睿派知识产权代理有限公司 11597 | 代理人: | 刘锋 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 | ||
1.一种音频处理方法,其特征在于,所述方法包括:
确定待检测音频和对应的标准文本,所述标准文本为内容与待检测音频对应的文本;
确定所述待检测音频对应的音频片段;
对各所述音频片段进行特征提取,以确定对应的音频特征,所述音频特征中包括多个按顺序排列的帧特征;
并行对各所述音频特征解码,得到对应于至少一个语音单位序列的解码概率序列,各所述语音单位序列根据标准文本确定,包括多个按顺序排列的语音元素,所述解码概率序列中包括多个解码概率,各所述解码概率用于表征音频特征中的对应帧特征对应于各所述语音元素的概率,所述语音单位序列中的各所述语音元素中包括至少一个语音单位,所述语音单位为音素、单词、句子以及段落中的一个;
根据各所述解码概率序列计算待检测音频对应的至少一个发音特征;
根据各所述发音特征确定待检测音频的可靠性。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待检测音频对应的音频片段包括:
按预定分割规则分割所述待检测音频,得到多个按顺序排列的音频片段。
3.根据权利要求1所述的方法,其特征在于,所述对各所述音频片段进行特征提取,以确定对应的音频特征包括:
在各所述音频片段中确定目标音频片段;
对所述目标音频片段进行分帧处理以确定对应的帧序列;
依次确定所述帧序列中各帧的帧特征;
根据顺序排列的各所述帧特征确定所述目标音频片段对应的音频特征。
4.根据权利要求3所述的方法,其特征在于,所述依次确定所述帧序列中各帧的帧特征包括:
依次提取所述帧序列中各帧的Fbank特征、能量特征和基频特征;
根据各帧对应的Fbank特征、能量特征和基频特征确定帧特征。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据对应音频片段的顺序将各所述音频特征依次加入特征队列。
6.根据权利要求5所述的方法,其特征在于,所述并行对各所述音频特征解码包括:
根据预设规则从所述特征队列中依次获取多个音频特征;
通过多个线程并行对各所述音频特征进行特征解码。
7.根据权利要求1所述的方法,其特征在于,所述并行对各所述音频特征解码包括:
确定所述标准文本对应的语音单位序列;
对各所述音频特征进行解码,以确定各所述帧特征对应于各所述语音元素的解码概率;
根据各所述音频特征对应的多个解码概率确定对应的解码概率序列。
8.根据权利要求1所述的方法,其特征在于,所述发音特征包括流利特征、发音特征、节奏特征和准确特征中的至少一个。
9.根据权利要求1所述的方法,其特征在于,所述根据各所述发音特征确定待检测音频的可靠性包括:
将各所述发音特征输入预先训练得到的可靠性模型,以输出对应的可靠性。
10.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-9中任一项所述的方法。
11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-9中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110547979.4/1.html,转载请声明来源钻瓜专利网。