[发明专利]用于生成音频信号的元数据的系统和方法在审
申请号: | 202180067206.4 | 申请日: | 2021-04-27 |
公开(公告)号: | CN116324984A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | N·莫里茨;G·维切恩;堀贵明;J·勒鲁克斯 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G10L25/30 | 分类号: | G10L25/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 孙东喜;刘久亮 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 音频 信号 数据 系统 方法 | ||
1.一种音频处理系统,该音频处理系统包括:
输入接口,该输入接口被配置为接收音频信号;
存储器,该存储器被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络,其中,所述不同类型的属性包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性,其中,所述神经网络的模型共享至少一些参数以用于确定两种类型的所述属性;
处理器,该处理器被配置为利用所述神经网络处理所述音频信号以生成所述音频信号的元数据,所述元数据包括所述音频信号中的一个或多个音频事件的一个或多个属性;以及
输出接口,该输出接口被配置为输出所述音频信号的所述元数据。
2.根据权利要求1所述的音频处理系统,其中,所述音频信号承载包括语音事件和非语音事件的多个音频事件,并且其中,所述处理器使用所述神经网络来确定所述语音事件的语音属性和所述非语音事件的非语音属性以生成所述元数据。
3.根据权利要求1所述的音频处理系统,其中,音频信号承载具有至少一个时间相关属性和至少一个时间不可知属性的多个音频事件,其中,所述时间相关属性包括语音事件的检测和所述语音事件的语音的转写之一或组合,其中,所述时间不可知属性包括利用标签或利用使用自然语言语句描述音频场景的音频字幕来标记所述音频信号。
4.根据权利要求1所述的音频处理系统,其中,音频信号承载具有至少一个时间相关属性和至少一个时间不可知属性的多个音频事件,其中,所述时间相关属性包括语音的转写和所述多个音频事件的时间位置的检测之一或组合,并且其中,所述时间不可知属性包括利用标签或使用自然语言语句描述音频场景的音频字幕中的一个或更多个来标记所述音频信号。
5.根据权利要求1所述的音频处理系统,其中,所述神经网络的所述模型包括编码器和解码器,并且其中,为确定不同类型的所述属性而共享的所述参数包括所述编码器的参数。
6.根据权利要求5所述的音频处理系统,其中,为确定不同类型的所述属性而共享的所述参数包括所述解码器的参数。
7.根据权利要求5所述的音频处理系统,其中,为确定不同类型的所述属性而共享的所述参数包括所述编码器的参数和所述解码器的参数。
8.根据权利要求5所述的音频处理系统,其中,所述处理器被配置为利用所述神经网络的所述编码器处理所述音频信号以生成编码,并且利用被初始化为与所述不同类型的所述属性对应的不同状态的所述解码器多次处理所述编码,以生成不同音频事件的所述属性的不同解码。
9.根据权利要求1所述的音频处理系统,其中,所述神经网络被联合训练以使用共享的所述参数执行各个转写任务来执行多个不同的转写任务。
10.根据权利要求9所述的音频处理系统,其中,所述转写任务包括自动语音识别(ASR)任务和声学事件检测(AED)任务。
11.根据权利要求9所述的音频处理系统,其中,所述转写任务包括自动语音识别(ASR)和音频标记(AT)。
12.根据权利要求9所述的音频处理系统,其中,所述转写任务包括自动语音识别(ASR)、声学事件检测(AED)和音频标记(AT)中的一个或更多个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180067206.4/1.html,转载请声明来源钻瓜专利网。