[发明专利]音频识别方法和装置、计算机设备、计算机可读存储介质有效
申请号: | 202111156129.8 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113593606B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 李金朋;邵云飞;张卫强 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/51;G06N3/04 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 吴迪 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 识别 方法 装置 计算机 设备 可读 存储 介质 | ||
本申请涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。所述方法包括:获取音频数据对应的音频特征。从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。预设的异构关系图为基于将初始异构关系图输入至预设的R‑GCN关系图卷积神经网络所生成的。将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。采用本方法能够同时进行音频中场景和事件的双重识别分类任务,并且提高识别分类的准确度和可信度。
技术领域
本申请涉及多媒体识别技术领域,特别是涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。
背景技术
随着多媒体相关技术的不断发展,音频处理技术也得到了不断发展。其中,对音频进行识别是音频处理过程中至关重要的一个环节。
传统方法,在对音频进行识别时,主要是从音频中识别出场景及事件。但是,在实际的音频识别任务中,通常对音频中的场景和事件分开进行识别。然而,一般情况下,音频中的事件与事件、场景与事件、场景与场景之间具有一定的关联关系。若分别对音频中的场景和事件进行识别,则就不能够在识别的过程中考虑到以上三者之间的关联关系。因此,对音频进行识别所得的场景及事件的准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种音频识别方法和装置、计算机设备、计算机可读存储介质,能够提高识别分类的准确度和可信度。
一种音频识别方法方法,所述方法包括:
获取音频数据对应的音频特征;
从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系;预设的异构关系图为基于将初始异构关系图输入至预设的R-GCN关系图卷积神经网络所生成的;
将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。
在其中一个实施例中,将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签,包括:
将音频特征及异构关系特征进行拼接,生成融合异构关系特征;
将融合异构关系特征输入至预设的深度神经网络中进行卷积处理,生成目标特征;
根据目标特征生成与音频数据对应的场景标签及事件标签。
在其中一个实施例中,提供了一种音频识别的方法,还包括:
获取训练集,为训练集中的每个预设音频数据设置标注标签;标注标签包括场景标签及事件标签;
根据训练集中预设音频数据的标注标签,构建初始异构关系图;
将初始异构关系图输入至初始的R-GCN关系图卷积神经网络,生成中间异构关系图。
在其中一个实施例中,根据训练集中预设音频数据的标注标签,构建初始异构关系图,包括:
根据训练集中预设音频数据的标注标签之间的共生概率,构建邻接矩阵;
根据训练集中音频数据的标注标签之间的关系类别,构建关系类别矩阵;
根据邻接矩阵及关系类别矩阵,构建初始异构关系图。
在其中一个实施例中,将初始异构关系图输入至初始的R-GCN关系图卷积神经网络,生成中间异构关系图,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111156129.8/2.html,转载请声明来源钻瓜专利网。