[发明专利]一种云视频会议中优化音视频效果的方法有效
申请号: | 202011495518.9 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112672090B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 胡鹏;刘清;冯文澜 | 申请(专利权)人: | 深圳随锐视听科技有限公司;随锐科技集团股份有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15;H04N21/44;H04N21/4402;H04N21/61;H04N21/845;H04N19/149;H04N19/172;H04N19/587;H04L67/10;G06V40/16 |
代理公司: | 成都睿道专利代理事务所(普通合伙) 51217 | 代理人: | 胡可 |
地址: | 518051 广东省深圳市南山区粤海街道高新区社区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频会议 优化 视频 效果 方法 | ||
1.一种云视频会议中优化音视频效果的方法,其特征在于,包括如下步骤:
步骤一,对存储在云端的视频数据进行解码并从中截取待处理的视频帧,所述视频数据为采集本地端对参会人员进行拍摄上传至云端获得;
步骤二,在采集本地端网络波动状况下,通过获取参会人员各自所属的行为轨迹预测以及根据所述行为轨迹预测提前准备的静态图像和虚拟场景,以静态图像和虚拟场景的结合替换所述视频帧,进行视频会议中网络波动的视频自动补帧,其中,所述静态图像包括参会人员行为轨迹过程的图像;
步骤三,在采集本地端网络波动状况下,将由采集本地端采集的音频数据翻译成字幕以及生成智能音频上传至云端,通过字幕和智能音频替换所述音频数据,进行视频会议中网络波动的音频效果的修复;
获取参会人员各自所属的行为轨迹预测包括如下步骤:
将所述待处理的视频帧输入人脸朝向识别模型,所述人脸朝向识别模型用于对所述待处理的视频帧进行人脸特征提取,得到参会人员中关键人员的面部朝向信息,
将面部朝向信息输入行为轨迹预判模型,所述行为轨迹预判模型基于云计算和所述面部朝向信息做出行为轨迹的预判,获取关键人员的行为轨迹预判结果,所述行为轨迹预判模型是以携带动作编号的动态轨迹图像为训练样本对第一基础模型进行训练得到的。
2.如权利要求1所述的云视频会议中优化音视频效果的方法,其特征在于,
音频数据翻译成字幕以及生成智能音频包括如下步骤:
将所述音频数据输入数字音频模型,所述数字音频模型用于对所述音频数据进行声纹和音量大小提取,得到音频数据中的声纹编号和音量大小数据编号;
所述数字音频模型是以携带声纹编号和音量大小数据编号的音频样本为训练样本,对第三基础模型进行训练得到的;
所述字幕是通过声纹编号获得,所述智能音频是通过机械发声模块根据所述字幕、所述声纹和音量大小生成。
3.如权利要求2所述的云视频会议中优化音视频效果的方法,其特征在于,
所述步骤二包括:
在采集本地端网络波动状况下,将行为轨迹预判结果输入场景模拟模型,所述场景模拟模型用于根据所述行为轨迹预判结果,提前准备静态画面和提前处理环境模拟;
通过所述场景模拟模型对视频帧进行静态画面替换以及虚拟场景的导入,进行视频会议中网络波动的视频自动补帧;所述场景模拟模型是以携带场景编号的多个场景图像样本为训练样本,对第二基础模型进行训练得到的。
4.如权利要求3所述的云视频会议中优化音视频效果的方法,其特征在于,
所述步骤二进一步包括:
在采集本地端网络状况较佳情况下,采集本地端上传高于当前清晰度的视频数据至云端。
5.如权利要求2所述的云视频会议中优化音视频效果的方法,其特征在于,
所述步骤三包括:
在采集本地端网络波动状况下,数字音频模型识别由拾音麦克风采集到的音频数据,生成字幕,以及获取音频数据中的声纹编号和音量大小数据编号,生成智能音频;
采集本地端将字幕以及智能音频上传至云端,通过字幕和智能音频替换所述音频数据,进行视频会议中网络波动的音频效果的修复。
6.如权利要求5所述的云视频会议中优化音视频效果的方法,其特征在于,
所述步骤三进一步包括:
在采集本地端网络状况较佳情况下,采集本地端上传高于当前清晰度的音频数据至云端。
7.如权利要求3所述的云视频会议中优化音视频效果的方法,其特征在于,
所述场景模拟模型通过以下步骤得到:
通过摄像头捕捉面对会议终端的多个关键点,在网络状况良好时将由关键点组成的场景和图像上传至云端;
所述关键点包括会议桌左侧位第一关键点、会议桌正对位第二关键点、会议桌右侧位第三关键点、会议桌左后方第四关键点、会议桌右后方第五关键点以及会议桌正对位背景第六关键点;
通过云计算对多个所述关键点进行场景编号,获取场景图像样本;以携带场景编号的多个场景图像样本为训练样本,对所述第二基础模型进行训练,得到场景模拟模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳随锐视听科技有限公司;随锐科技集团股份有限公司,未经深圳随锐视听科技有限公司;随锐科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011495518.9/1.html,转载请声明来源钻瓜专利网。