[发明专利]一种基于感兴趣区域的音频增强编码传输系统及方法在审
申请号: | 202210947637.6 | 申请日: | 2022-08-09 |
公开(公告)号: | CN115331681A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 金国庆;陈尚武;尹书娟 | 申请(专利权)人: | 深蓝感知(杭州)物联科技有限公司 |
主分类号: | G10L19/24 | 分类号: | G10L19/24 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 金方玮 |
地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 感兴趣 区域 音频 增强 编码 传输 系统 方法 | ||
本发明公开了一种基于感兴趣区域的音频增强编码传输系统及方法,该系统包含:麦克风阵列采样模块、多声源提取模块、降采样模块、神经网络感兴趣识别模块、声音感兴趣选择模块、声音感兴趣编码模块、打包传输模块、声音感兴趣解码模块、升采样模块、声音选择混合模块和扬声器渲染模块。本发明的一种基于感兴趣区域的音频增强编码传输系统及方法,对感兴趣区域的声音采用高帧率编码,提高感兴趣区域的声音内容信息量,非感兴趣区域采用低帧率编码,平衡网络传输与后续数据存储数据量。
技术领域
本发明涉及一种基于感兴趣区域的音频增强编码传输系统及方法。
背景技术
现有声音采集设备对各个方位声音无差别选择或挑响度最高声音进行统一音频编码,这边感兴趣区域的声音与非感兴趣区域的声音无差统一处理,这里制造无用信息对传输与存储资源占用,无法平衡网络传输与后续数据存储数据量。
发明内容
本发明提供了一种基于感兴趣区域的音频增强编码传输系统及方法解决上述提到的技术问题,具体采用如下的技术方案:
一种基于感兴趣区域的音频增强编码传输系统,包含:麦克风阵列采样模块、多声源提取模块、降采样模块、神经网络感兴趣识别模块、声音感兴趣选择模块、声音感兴趣编码模块、打包传输模块、声音感兴趣解码模块、升采样模块、声音选择混合模块和扬声器渲染模块;
麦克风阵列采样模块通过多个麦克风采集声音,每个麦克风独立输出高采样率的PCM音频数据和时间戳至多声源提取模块;
多声源提取模块接收麦克风阵列采样模块发送的每个声音源的PCM音频数据和时间戳,获取每个声音源的角度方位,分别针对每个声音源的角度,使用多个麦克风接收到声波的相位之间的差异对余下角度的声波进行过滤,得到需要的每个声音源的高采样率PCM数据,根据每个声音源的角度获取区块标号,把每个声音源的高采样率PCM数据、区块标号和时间戳发送至降采样模块和声音感兴趣编码模块;
降采样模块对每个声音源的高采样率PCM数据进行降低采样率处理得到第一低采样率PCM数据,将每个声音源的第一低采样率PCM数据、区块标号和时间戳发送至神经网络感兴趣识别模块,降采样模块再对每个声音源的第一低采样率PCM数据进行降低采样率处理得到第二低采样率PCM数据,将每个声音源的第二低采样率PCM数据、区块标号和时间戳发送至声音感兴趣编码模块;
神经网络感兴趣识别模块接收每个声音源的第一低采样率PCM数据、区块标号和时间戳,将语音转为文字,对文字进行分类,判断其是否为感兴趣的声音源,神经网络感兴趣识别模块将每个声音源的分类结果、区块标号和时间戳发送至声音感兴趣选择模块;
声音感兴趣选择模块接收神经网络感兴趣识别模块的每个声音源的分类结果、区块标号和时间戳,声音感兴趣选择模块把时间戳按照分片时长T进行分片,将该时间戳除以分片时长T得到时间编号序号,联合时间编号序号和区块标号生成每个声音源的分区时间槽位ID,对于分类结果为感兴趣的声音源,把符合声音源对区块标号以及时间编号序号大于等于当前时间编号序号且时间编号序号小于等于当前时间编号序号加调节宽度K的分区时间槽位ID标识为感兴趣选择,并将标识为感兴趣选择的分区时间槽位ID发送至声音感兴趣编码模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深蓝感知(杭州)物联科技有限公司,未经深蓝感知(杭州)物联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210947637.6/2.html,转载请声明来源钻瓜专利网。