[发明专利]基于场景识别的语音处理方法及其装置、介质和系统在审
申请号: | 202010043607.3 | 申请日: | 2020-01-15 |
公开(公告)号: | CN113129917A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 李峰;刘镇亿;玄建永 | 申请(专利权)人: | 荣耀终端有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/51;G10L25/57;G10L25/30;H04N21/439;H04N21/44;G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 上海音科专利商标代理有限公司 31267 | 代理人: | 夏峰 |
地址: | 518040 广东省深圳市福田区香蜜湖街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 场景 识别 语音 处理 方法 及其 装置 介质 系统 | ||
本申请涉及人工智能领域,公开了一种基于场景识别的语音处理方法及其装置、介质和系统。本申请的基于场景识别的语音处理方法包括:在检测到电子设备进行视频录入的情况下,获取当前录入的视频中的图像数据和音频数据;对图像数据和音频数据进行特征提取,得到图像数据的图像特征和音频数据的音频特征;对提取出来的图像特征和音频特征进行识别,识别出电子设备当前录入视频所处的场景类别;基于识别出的场景类别,对电子设备实时录入的视频中的音频数据进行处理,并输出处理后的音频数据和对应的图像数据。
技术领域
本申请涉及人工智能领域,特别涉及一种基于场景识别的语音处理方法及其装置、介质和系统。
背景技术
在利用录像设备进行录像、视频直播或视频通话时,因录像设备所处的环境不同,麦克风采集到的环境噪声差异较大,对目标声音的影响也不同。但是,目前业界对录像设备采集的音频的降噪,仅仅基于音频或者图像进行场景判断,对于不同的场景,例如:室内,演播厅,马路上,车里,海边,餐厅等,声音种类存在随机性和偶然性,很难准确识别声音种类,且容易造成对场景的误判,准确率低,用户体验较差。
发明内容
本申请实施例提供了一种基于场景识别的语音处理方法及其装置、介质和系统。
第一方面,本申请实施例提供了一种于场景识别的语音处理方法,所述方法包括:
在检测到所述电子设备进行视频录入的情况下,获取当前录入的视频中的图像数据和音频数据;对所述图像数据和音频数据进行特征提取,得到所述图像数据的图像特征和所述音频数据的音频特征;对提取出来的所述图像特征和音频特征进行识别,识别出所述电子设备当前录入视频所处的场景类别;基于识别出的场景类别,对所述电子设备实时录入的视频中的音频数据进行处理,并输出处理后的音频数据和对应的图像数据。如此,基于图像特征和音频特征一起进行识别,识别出的场景类型更加准确,避免仅仅通过图像特征或语音特征进行识别而造成的场景误判,提交场景识别准确率。另外,根据识别出的场景类别,对电子设备实时录入的视频中的音频数据进行处理,可以达到每个场景的最优体验,避免对不同场景下的音频数据都进行同样的处理,而出现的损伤或误处理问题。
在上述第一方面的一种可能的实现中,上述方法还包括:所述对所述图像数据和音频数据进行特征提取,得到所述图像数据的图像特征和所述音频数据的音频特征,包括:
对所述图像数据进行结构化处理得到所述图像数据的图像特征,并且对所述音频数据进行傅里叶变换得到所述音频数据的音频特征。在一些实施例中,可以通过三维卷积神经网络模型对样本图像进行特征提取。在一些实施例中,还可以在对音频数据进行傅里叶变换之前对音频数据进行预加重、分帧等预处理。
在上述第一方面的一种可能的实现中,上述方法还包括:所述基于识别出的场景类别,对所述电子设备实时录入的视频中的音频数据进行处理,并输出处理后的音频数据和对应的图像数据,包括:
基于识别出的场景类别,选择与所述场景类别对应的降噪处理算法、均衡处理方式、自动增益控制方式和动态范围控制方式;基于选择出的降噪处理算法、均衡处理方式、自动增益控制方式和动态范围控制方式对所述电子设备实时录入的视频中的音频数据进行处理;输出处理后的音频数据和对应的图像数据。在一些实施例中,当识别出场景类别后,可以根据需要选择与场景类别对应的上述处理方法中的其中一种或几种。
在上述第一方面的一种可能的实现中,上述方法还包括:所述电子设备进行视频录入的情况包括:视频拍摄、视频直播或视频通话。
在上述第一方面的一种可能的实现中,上述方法还包括:确定出所述电子设备进行视频录入的情况为视频直播或者视频通话;
基于当前录入的视频中的音频数据,识别出进行视频直播或者视频通话的用户的人声;并且
所述基于识别出的场景类别,对所述电子设备实时录入的视频中的音频数据进行处理,并输出处理后的音频数据和对应的图像数据,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于荣耀终端有限公司,未经荣耀终端有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010043607.3/2.html,转载请声明来源钻瓜专利网。