[发明专利]一种基于感兴趣区域的音频增强编码传输系统及方法在审
申请号: | 202210947637.6 | 申请日: | 2022-08-09 |
公开(公告)号: | CN115331681A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 金国庆;陈尚武;尹书娟 | 申请(专利权)人: | 深蓝感知(杭州)物联科技有限公司 |
主分类号: | G10L19/24 | 分类号: | G10L19/24 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 金方玮 |
地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 感兴趣 区域 音频 增强 编码 传输 系统 方法 | ||
1.一种基于感兴趣区域的音频增强编码传输系统,其特征在于,包含:麦克风阵列采样模块、多声源提取模块、降采样模块、神经网络感兴趣识别模块、声音感兴趣选择模块、声音感兴趣编码模块、打包传输模块、声音感兴趣解码模块、升采样模块、声音选择混合模块和扬声器渲染模块;
麦克风阵列采样模块通过多个麦克风采集声音,每个麦克风独立输出高采样率的PCM音频数据和时间戳至多声源提取模块;
多声源提取模块接收麦克风阵列采样模块发送的每个声音源的PCM音频数据和时间戳,获取每个声音源的角度方位,分别针对每个声音源的角度,使用多个麦克风接收到声波的相位之间的差异对余下角度的声波进行过滤,得到需要的每个声音源的高采样率PCM数据,根据每个声音源的角度获取区块标号,把每个声音源的高采样率PCM数据、区块标号和时间戳发送至降采样模块和声音感兴趣编码模块;
降采样模块对每个声音源的高采样率PCM数据进行降低采样率处理得到第一低采样率PCM数据,将每个声音源的第一低采样率PCM数据、区块标号和时间戳发送至神经网络感兴趣识别模块,降采样模块再对每个声音源的第一低采样率PCM数据进行降低采样率处理得到第二低采样率PCM数据,将每个声音源的第二低采样率PCM数据、区块标号和时间戳发送至声音感兴趣编码模块;
神经网络感兴趣识别模块接收每个声音源的第一低采样率PCM数据、区块标号和时间戳,将语音转为文字,对文字进行分类,判断其是否为感兴趣的声音源,神经网络感兴趣识别模块将每个声音源的分类结果、区块标号和时间戳发送至声音感兴趣选择模块;
声音感兴趣选择模块接收神经网络感兴趣识别模块的每个声音源的分类结果、区块标号和时间戳,声音感兴趣选择模块把时间戳按照分片时长T进行分片,将该时间戳除以分片时长T得到时间编号序号,联合时间编号序号和区块标号生成每个声音源的分区时间槽位ID,对于分类结果为感兴趣的声音源,把符合声音源对区块标号以及时间编号序号大于等于当前时间编号序号且时间编号序号小于等于当前时间编号序号加调节宽度K的分区时间槽位ID标识为感兴趣选择,并将标识为感兴趣选择的分区时间槽位ID发送至声音感兴趣编码模块;
声音感兴趣编码模块接收多声源提取模块发送的每个声音源的高采样率PCM数据、区块标号和时间戳,接收降采样模块发送的每个声音源的第二低采样率PCM数据、区块标号和时间戳,接收声音感兴趣选择模块发送的感兴趣选择的分区时间槽位ID,声音感兴趣编码模块将高采样率的时间戳除以分片时长T得到时间编号序号,联合时间编号序号和区块标号生成高采样率的分区时间槽位ID,声音感兴趣编码模块将低采样率的时间戳除以分片时长T得到时间编号序号,联合时间编号序号和区块标号生成低采样率的分区时间槽位ID,对于分区时间槽位ID为感兴趣选择分片,选择高采样率PCM数据进行音频编码压缩得声音源的音频增强压缩流,对于分区时间槽位ID不是感兴趣选择分片,选择第二低采样率PCM数据进行音频编码压缩得到声音源的音频标准压缩流,声音感兴趣编码模块将各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位ID发送至打包传输模块;
打包传输模块接收各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位ID,进行网络RTP打包发送至声音感兴趣解码模块;
声音感兴趣解码模块接收打包传输模块发送的每个声音源的音频标准压缩流或音频增强压缩流与对应的分区时间槽位ID,声音感兴趣解码模块对音频压缩流进行音频解码,得到高采样率PCM数据和第二低采样率PCM数据,将每个声音源的高采样率PCM数据与分区时间槽位ID发送给声音选择混合模块,把每个声音源的第二低采样率PCM数据与分区时间槽位ID发送至升采样模块;
升采样模块将第二低采样率PCM数据进行升采样处理得到升采样后PCM数据,再将每个声音源的升采样后PCM数据和分区时间槽位ID发送至声音选择混合模块;
声音选择混合模块接收发送自声音感兴趣解码模块的每个声音源的高采样率PCM数据与分区时间槽位ID和发送自升采样模块的每个声音源的升采样后PCM数据和分区时间槽位ID,声音选择混合模块根据设置时间区间与方向区间来选择需要声音混合的声音源,声音选择混合模块把当前时间戳或选择播放时间除以分片时长T得到播放时间编号序号,获取播放时间编号序号符合方向区间的区块标号列表,联合区块标号列表中的区块标号与时间编号序号得到分区时间槽位ID,得到容许混合的分区时间槽位ID列表,声音选择混合模块判断接收的每个声音源的分区时间槽位ID是否在分区时间槽位ID列表中,在则参与混合,声音选择混合模块对参与混合的声音源的PCM数据进行混音计算得到混音后PCM数据,把混音后PCM数据发送至扬声器渲染模块;
扬声器渲染模块接收到声音选择混合模块的混音后PCM数据,进行数字到模拟的转换,并进行混合声音的播放。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深蓝感知(杭州)物联科技有限公司,未经深蓝感知(杭州)物联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210947637.6/1.html,转载请声明来源钻瓜专利网。