[发明专利]一种音频处理方法和装置有效

申请号：	201811167458.0	申请日：	2018-10-08
公开（公告）号：	CN111009259B	公开（公告）日：	2022-09-16
发明（设计）人：	李冬;龙德平;柯常志	申请（专利权）人：	杭州海康慧影科技有限公司
主分类号：	G10L21/034	分类号：	G10L21/034;G10L21/0208;G10L25/30;G10L25/24;G10L25/12
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	孙清然;王琦
地址：	310053 浙江省杭州市滨***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种音频处理方法和装置，其中方法包括：利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节；对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。采用本发明，可以提高语音互动场景下的声音采集质量。

技术领域

本发明涉及声音采集技术，特别是涉及一种音频处理方法和装置。

背景技术

现有的声音采集方案中，在多媒体教室教学场景下，通过多麦克风阵列完成授课时环境音的获取，通过无线定向麦克风完成授课时老师的声音获取，之后经过降噪和多路音频均衡模块以及混音模块，把老师的声音与环境音合成一路并输出。

上述现有的声音采集方案中，通过音频均衡之后进行混音，可以一定程度上保证老师的声音清晰。但是，实际教学场景中，会存在老师和学生之间的语音互动，此时，不仅定向采集的老师声音属于重要声音，全向采集的环境音中的学生声音也很重要，需要具有一定的清晰度。

本发明人通过研究分析发现：对于环境中存在的重要人声并伴随单调噪声的场景，上述方案由于仅是在混音前做了简单地音频均衡，对环境音中的重要人声并不进行有针对性的处理，因此，无法确保环境中重要人声的清晰度。

由此可见，采用现有的声音采集方案，无法确保语音互动场景下重要声音的清晰度，进而无法满足语音互动场景下的声音采集质量。

发明内容

有鉴于此，本发明的主要目的在于提供一种音频处理方法和装置，可以提高语音互动场景下的声音采集质量。

为了达到上述目的，本发明实施例提出的技术方案为：

一种音频处理方法，包括：

利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节；

对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。

较佳地，所述对全向音频采集设备输出的音频进行自适应增益调节包括：

利用所述定向音频采集设备输出的音频的能量平均值，对所述全向音频采集设备输出的音频进行自适应增益调节。

较佳地，所述对全向音频采集设备输出的音频进行自适应增益调节包括：

将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；

在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的单声道音频中，分离出有效音频；

根据所述能量平均值，对所述有效音频进行增益自适应处理。

较佳地，所述对全向音频采集设备输出的音频进行自适应增益调节包括：

将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；

利用第一语音回传设备输入的音频，作为回声消除的参考音频，分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除；

在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中，分离出有效音频；根据所述能量平均值，对所述有效音频进行增益自适应处理。

较佳地，所述根据所述能量平均值，对所述有效音频进行增益自适应处理包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州海康慧影科技有限公司，未经杭州海康慧影科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811167458.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种音频处理方法和装置有效

专利文献下载