[发明专利]基于场景识别的语音处理方法及其装置、介质和系统在审

申请号：	202010043607.3	申请日：	2020-01-15
公开（公告）号：	CN113129917A	公开（公告）日：	2021-07-16
发明（设计）人：	李峰;刘镇亿;玄建永	申请（专利权）人：	荣耀终端有限公司
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L25/51;G10L25/57;G10L25/30;H04N21/439;H04N21/44;G06K9/00;G06N3/04;G06N3/08
代理公司：	上海音科专利商标代理有限公司 31267	代理人：	夏峰
地址：	518040 广东省深圳市福田区香蜜湖街道***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于场景识别语音处理方法及其装置介质系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能领域，公开了一种基于场景识别的语音处理方法及其装置、介质和系统。本申请的基于场景识别的语音处理方法包括：在检测到电子设备进行视频录入的情况下，获取当前录入的视频中的图像数据和音频数据；对图像数据和音频数据进行特征提取，得到图像数据的图像特征和音频数据的音频特征；对提取出来的图像特征和音频特征进行识别，识别出电子设备当前录入视频所处的场景类别；基于识别出的场景类别，对电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据。

技术领域

本申请涉及人工智能领域，特别涉及一种基于场景识别的语音处理方法及其装置、介质和系统。

背景技术

在利用录像设备进行录像、视频直播或视频通话时，因录像设备所处的环境不同，麦克风采集到的环境噪声差异较大，对目标声音的影响也不同。但是，目前业界对录像设备采集的音频的降噪，仅仅基于音频或者图像进行场景判断，对于不同的场景，例如：室内，演播厅，马路上，车里，海边，餐厅等，声音种类存在随机性和偶然性，很难准确识别声音种类，且容易造成对场景的误判，准确率低，用户体验较差。

发明内容

本申请实施例提供了一种基于场景识别的语音处理方法及其装置、介质和系统。

第一方面，本申请实施例提供了一种于场景识别的语音处理方法，所述方法包括：

在检测到所述电子设备进行视频录入的情况下，获取当前录入的视频中的图像数据和音频数据；对所述图像数据和音频数据进行特征提取，得到所述图像数据的图像特征和所述音频数据的音频特征；对提取出来的所述图像特征和音频特征进行识别，识别出所述电子设备当前录入视频所处的场景类别；基于识别出的场景类别，对所述电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据。如此，基于图像特征和音频特征一起进行识别，识别出的场景类型更加准确，避免仅仅通过图像特征或语音特征进行识别而造成的场景误判，提交场景识别准确率。另外，根据识别出的场景类别，对电子设备实时录入的视频中的音频数据进行处理，可以达到每个场景的最优体验，避免对不同场景下的音频数据都进行同样的处理，而出现的损伤或误处理问题。

在上述第一方面的一种可能的实现中，上述方法还包括：所述对所述图像数据和音频数据进行特征提取，得到所述图像数据的图像特征和所述音频数据的音频特征，包括：

对所述图像数据进行结构化处理得到所述图像数据的图像特征，并且对所述音频数据进行傅里叶变换得到所述音频数据的音频特征。在一些实施例中，可以通过三维卷积神经网络模型对样本图像进行特征提取。在一些实施例中，还可以在对音频数据进行傅里叶变换之前对音频数据进行预加重、分帧等预处理。

在上述第一方面的一种可能的实现中，上述方法还包括：所述基于识别出的场景类别，对所述电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据，包括：

基于识别出的场景类别，选择与所述场景类别对应的降噪处理算法、均衡处理方式、自动增益控制方式和动态范围控制方式；基于选择出的降噪处理算法、均衡处理方式、自动增益控制方式和动态范围控制方式对所述电子设备实时录入的视频中的音频数据进行处理；输出处理后的音频数据和对应的图像数据。在一些实施例中，当识别出场景类别后，可以根据需要选择与场景类别对应的上述处理方法中的其中一种或几种。

在上述第一方面的一种可能的实现中，上述方法还包括：所述电子设备进行视频录入的情况包括：视频拍摄、视频直播或视频通话。

在上述第一方面的一种可能的实现中，上述方法还包括：确定出所述电子设备进行视频录入的情况为视频直播或者视频通话；

基于当前录入的视频中的音频数据，识别出进行视频直播或者视频通话的用户的人声；并且

所述基于识别出的场景类别，对所述电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于荣耀终端有限公司，未经荣耀终端有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010043607.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于场景识别的语音处理方法及其装置、介质和系统在审

专利文献下载