[发明专利]一种声音处理方法、装置与设备在审
申请号: | 202211261514.3 | 申请日: | 2018-09-29 |
公开(公告)号: | CN115762579A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 刘镇亿;赵文斌;李峰 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L21/02;G10L21/0208;G10L21/0272;H04W4/021;G06V40/16;G06V20/40 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 邱青云 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声音 处理 方法 装置 设备 | ||
1.一种声音处理方法,其特征在于,所述方法包括:
终端拍摄视频时,若当前视频帧包含人脸且当前音频帧存在语音,则,
在所述当前视频帧中确定出目标人脸;
若所述目标人脸发生与所述终端由近到远的移动,获取所述目标人脸与所述终端之间的由近到远的至少两个目标距离;
根据所述由近到远的至少两个目标距离确定出对应的至少两个目标增益;其中,所述目标距离越大,所述目标增益越大;
从所述当前音频帧中分离出语音信号;
根据所述至少两个目标增益对所述语音信号进行增强处理,得到由近到远的目标语音信号。
2.如权利要求1所述方法,其特征在于,所述方法还包括:
从所述当前音频帧中分离出非语音信号;
根据预设降噪增益对所述非语音信号进行减弱,得到目标噪声信号;
将所述目标语音信号和所述目标噪声信号合成,得到当前帧的目标声音信号。
3.如权利要求1所述方法,其特征在于,所述在所述当前视频帧中确定出目标人脸包括:
如果所述当前视频帧中存在多个人脸时,将面积最大的人脸确定为目标人脸。
4.如权利要求1所述方法,其特征在于,所述在所述当前视频帧中确定出目标人脸包括:
如果所述当前视频帧中存在多个人脸时,将距离所述终端最近的人脸确定为目标人脸。
5.如权利要求1所述方法,其特征在于,所述在所述当前视频帧中确定出目标人脸包括:
如果所述当前视频帧中只存在一个人脸时,将该人脸确定为目标人脸。
6.如权利要求1-5中任一项所述方法,其特征在于,获取所述目标人脸与所述终端之间的目标距离包括:
利用终端中的结构光来测量目标人脸距离终端的距离。
7.如权利要求1-5中任一项所述方法,其特征在于,获取所述目标人脸与所述终端之间的目标距离包括:
计算目标人脸区域面积,并根据预设的人脸区域面积与人脸距离终端距离的函数关系,得到目标人脸距离终端的目标距离。
8.如权利要求1所述方法,其特征在于,所述目标增益小于15dB。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述语音是所述目标人脸对应的对象产生的人声或音乐声。
10.一种声音处理装置,其特征在于,所述装置包括:
检测模块,用于终端拍摄视频时,对当前视频帧进行人脸检测,并对当前音频帧进行语音检测;
第一确定模块,用于在所述检测模块检测到所述当前视频帧包含人脸且所述当前音频帧存在语音时,在所述当前视频帧中确定出目标人脸;
获取模块,用于若所述目标人脸发生与所述终端由近到远的移动,获取所述目标人脸与所述终端之间的由近到远的至少两个目标距离;
第二确定模块,用于根据所述由近到远的至少两个目标距离确定出对应的至少两个目标增益;其中,所述目标距离越大,所述目标增益越大;
分离模块,用于从所述当前音频帧中分离出语音信号;
语音增强模块,用于根据所述至少两个目标增益对所述语音信号进行增强处理,得到由近到远的目标语音信号。
11.如权利要求10所述装置,其特征在于,所述装置还包括降噪模块和合成模块;
所述分离模块还用于从所述当前音频帧中分离出非语音信号;
所述降噪模块用于根据预设降噪增益对所述非语音信号进行减弱,得到目标噪声信号;
所述合成模块用于将所述目标语音信号和所述目标噪声信号合成,得到当前帧的目标声音信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211261514.3/1.html,转载请声明来源钻瓜专利网。