[发明专利]语音增强方法及装置有效
申请号: | 201810185895.9 | 申请日: | 2018-03-07 |
公开(公告)号: | CN110248197B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 陈扬坤;钱能锋;陈展 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | H04N21/218 | 分类号: | H04N21/218;H04N21/233;H04N21/234;G06T3/40 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 江崇玉 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 增强 方法 装置 | ||
本申请公开了一种语音增强方法及装置,属于多媒体处理领域。所述方法包括:获取目标图像,目标图像包括N个图像区域;当接收到N个图像区域中目标图像区域上的预设操作时,确定与目标图像区域对应的目标空间方向,并对目标空间方向对应的声音信号进行语音增强处理。本申请通过语音增强系统根据用户通过预设操作所指定的目标图像区域进行声源定位,进而使得定位出的目标空间方向即为用户所需要增强语音的方向,从而提高了声源定位的准确性和增强后的声音信号的质量,大大提供了语音增强系统的性能。
技术领域
本申请实施例涉及多媒体处理领域,特别涉及一种语音增强方法及装置。
背景技术
语音增强方法是指从环境噪声中提取有用的声音信号从而降低噪声干扰的方法。
目前,以基于麦克风阵列的语音增强方法为例,该语音增强方法包括:摄像机利用多个麦克风各自采集声音信号,根据采集到的多个声音信号各自包含的空间相位信息进行空间滤波,形成具有指向方向的空间波束,从而对指定方向上的声音信号进行增强。
但是,在上述方法中,当使用环境中存在多个声音信号或者环境噪声较大时,由于摄像机通常选择声音最强的声音信号进行增强,因此很可能会导致增强的声音信号与使用者实际需要增强的声音信号不一致的情况。
发明内容
为了解决相关技术中语言增强过程中声源定位不准确的问题,本申请实施例提供了一种语音增强方法及装置。所述技术方案如下:
第一方面,提供了一种语音增强方法,所述方法包括:
获取视频采集区域的目标图像,所述目标图像包括N个图像区域,所述N为大于1的正整数;
当接收到所述N个图像区域中目标图像区域上的预设操作时,确定与所述目标图像区域对应的目标空间方向,所述目标空间方向用于指示需要进行语音增强处理的空间方向;
对所述目标空间方向对应的声音信号进行语音增强处理。
可选的,所述当接收到所述目标图像中目标图像区域上的预设操作时,确定与所述目标图像区域对应的目标空间方向,包括:
当接收到所述目标图像中的预设操作时,将所述预设操作对应的图像区域确定为所述目标图像区域;
根据第一预设对应关系,将所述目标图像区域对应的空间方向确定为目标空间方向,所述第一预设对应关系包括所述图像区域与所述空间方向之间的对应关系。
可选的,所述对所述目标空间方向对应的声音信号进行语音增强处理,包括:
对来自于所述目标空间方向的声音信号进行语音增强处理,并对来自于非目标空间方向的声音信号进行语音抑制处理;
其中,所述非目标空间方向为所述视频采集区域中除所述目标空间方向以外的其它空间方向。
可选的,所述对所述目标空间方向对应的声音信号进行语音增强处理,包括:
根据第二预设对应关系,确定与所述目标空间方向对应的目标局部空间,所述第二预设对应关系包括所述空间方向和局部空间之间的对应关系;
对来自于所述目标局部空间的声音信号进行语音增强处理,并对来自于非目标局部空间的声音信号进行语音抑制处理;
其中,所述非目标局部空间为所述视频采集区域中除所述目标局部空间以外的其它空间。
可选的,所述视频采集区域包括M个不同的拍摄区域,所述M为大于1的正整数,所述获取视频采集区域的目标图像,包括:
获取所述M个拍摄区域各自对应的拍摄图像;
将所述M个拍摄图像进行拼接,得到所述目标图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810185895.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于调色板编解码的方法和设备
- 下一篇:媒体信息汇聚方法、装置和系统