[发明专利]一种视频通话处理方法、系统、电子设备及存储介质有效
申请号: | 202210987630.7 | 申请日: | 2022-08-17 |
公开(公告)号: | CN115376188B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 肖冠正 | 申请(专利权)人: | 天翼爱音乐文化科技有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G06T3/40;G06V10/25;G06V10/26;G06V10/82;G06N3/08;G06N3/082;G06N3/0464 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 郑宏谋 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 通话 处理 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种视频通话处理方法、系统、电子设备及存储介质,其中,方法包括获取待处理通话视频;对所述待处理通话视频进行人脸检测处理,确定裁剪视频;对所述裁剪视频进行数据预处理,确定预处理数组;将所述预处理数组输入预先训练的人脸超分辨率模型进行超分辨率处理,确定超分辨率通话视频;本发明能够通过人脸超分辨率模型将低分辨率视频还原为高清通话视频,提高了视频通话的清晰度,可广泛应用于计算机视觉技术领域。
技术领域
本发明涉及计算机视觉技术领域,尤其是一种视频通话处理方法、系统、电子设备及存储介质。
背景技术
目前,随着互联网的普及,人与人的通信从语音通话向视频通话演进。而视频通话,由于通话双方均需要在传输自己的视频画面的同时接收对方传输过来的视频流,导致高清视频通话对网络质量有着极高的要求。相关技术通过检测网络状态,在网络质量优良的时候传输高清视频,在网络质量差的时候传输低清视频,接收端接收到后通过传统线性插值方法对画面进行放大。这种方式在传输高清视频时会带来很大流量及带宽消耗,传输低清视频时则会出现边缘模糊,画面存在马赛克等现象。
发明内容
有鉴于此,本发明实施例提供一种视频通话处理方法、系统、电子设备及存储介质,以解决现有技术中存在的技术问题之一。
一方面,本发明提供了一种视频通话处理方法,包括:
获取待处理通话视频;
对所述待处理通话视频进行人脸检测处理,确定裁剪视频;
对所述裁剪视频进行数据预处理,确定预处理数组;
将所述预处理数组输入预先训练的人脸超分辨率模型进行超分辨率处理,确定超分辨率通话视频。
可选地,所述对所述待处理通话视频进行人脸检测处理,确定裁剪视频,包括:
根据人脸检测算法对所述待处理通话视频进行人脸检测处理,确定人脸区域;
对所述人脸区域进行裁剪处理,确定裁剪视频。
可选地,所述对所述裁剪视频进行数据预处理,确定预处理数组,包括:
对所述裁剪视频进行逐帧解码处理,确定解码数据;
对所述解码数据进行数据转换处理,确定预处理数组。
可选地,所述人脸超分辨率模型包括生成器模型和鉴别器模型,所述鉴别器模型包括全局图像鉴别器、眼睛区域鉴别器和嘴巴区域鉴别器。
可选地,所述生成器模型包括普通卷积层、深度可分离卷积层、残差相加层和子像素卷积层。
可选地,在所述将所述预处理数组输入预先训练的人脸超分辨率模型进行超分辨率处理,确定超分辨率通话视频之前,所述方法还包括预先训练所述人脸超分辨率模型,具体包括:
获取训练数据集;
将所述训练数据集输入到所述生成器模型,确定生成数据;
将所述生成数据输入到所述鉴别器模型,确定鉴别结果;
根据所述鉴别结果对所述人脸超分辨率模型的参数进行更新。
可选地,在所述根据所述鉴别结果对所述人脸超分辨率模型的参数进行更新之后,所述方法还包括:
对更新后的所述人脸超分辨率模型进行剪枝处理,确定剪枝模型;
对所述剪枝模型进行二次训练处理,确定训练模型;
对所述训练模型进行量化处理,确定所述人脸超分辨率模型。
另一方面,本发明实施例还提供了一种系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼爱音乐文化科技有限公司,未经天翼爱音乐文化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210987630.7/2.html,转载请声明来源钻瓜专利网。