[发明专利]用于生成音频信号的元数据的系统和方法在审
申请号: | 202180067206.4 | 申请日: | 2021-04-27 |
公开(公告)号: | CN116324984A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | N·莫里茨;G·维切恩;堀贵明;J·勒鲁克斯 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G10L25/30 | 分类号: | G10L25/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 孙东喜;刘久亮 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 音频 信号 数据 系统 方法 | ||
提供了一种音频处理系统。该音频处理系统包括输入接口,其被配置为接受音频信号。此外,该音频处理系统包括存储器,其被配置为存储被训练以确定不同起因的多个并发音频事件的不同类型的属性的神经网络,其中,属性的类型包括语音音频事件和非语音音频事件的时间相关属性和时间不可知属性。此外,该音频处理系统包括处理器,其被配置为利用神经网络处理音频信号以生成音频信号的元数据,该元数据包括音频信号中的一个或多个音频事件的一个或多个属性。
技术领域
本公开总体上涉及音频处理,更具体地,涉及一种用于使用神经网络生成音频信号的元数据的系统。
背景技术
语音(speech)识别系统已进展到人可依靠语音与计算装置交互的地步。这些系统采用基于所接收的音频输入的各种参数来识别用户所说的词语的技术。语音识别与自然语言理解处理技术组合实现了计算装置的基于语音的用户控制,以基于用户的口头命令执行任务。语音识别和自然语言理解处理技术的组合通常被称为语音处理。语音处理还可将用户的语音转换为文本数据,文本数据然后可被提供给各种基于文本的软件应用。与语音关联的音频数据向代表该语音的文本的转换被称为自动语音识别(ASR)。
此外,声学事件检测(AED)技术可用于检测某些声音事件,例如常规住户声音(关门、水槽流水等)、语音声音(但不是语音转写)、机械声音或其它声音事件以及对应定时信息,使得各个声音事件与活动开始时间和结束时间关联。例如,在汽车维修车间中,AED可被配置为从音频输入检测钻头的声音以及钻头声音的对应开始时间和结束时间。另外,音频标记(AT)技术可用于检测声音事件的存在(例如,标识标签为“钻头”的事件)而不管定时,使得不检测开始时间和结束时间。另外地或另选地,AT可包括音频加字幕,其中生成描述声学场景的自然语言语句。例如,在汽车维修车间中,可生成诸如“一个人一边说话一边操作钻头”的音频字幕。
然而,音频标记(AT)、声学事件检测(AED)和自动语音识别(ASR)被当作单独的问题。另外,任务特定神经网络架构用于执行ASR、AED和AT任务中的每一个。一些方法使用基于注意力的编码器-解码器神经网络架构,其中编码器提取声学线索,注意力机制充当中继,解码器执行感知、检测和识别音频事件。然而,对于事件分类,编码器-解码器神经网络架构的使用被限于非基于注意力的递归神经网络(RNN)解决方案,其中编码器将声学信号压缩为单个嵌入向量,解码器检测以这种向量表示编码的音频事件。
因此,需要一种用于统一ASR、AED和AT的系统和方法。
发明内容
一些实施方式的目的是通过针对不同的转写任务联合训练神经网络在对音频场景的音频信号执行不同的转写任务时实现协同。另选地,一些实施方式的目的是提供一种系统,其被配置为使用神经网络来执行诸如自动语音识别(ASR)、声学事件检测(AED)和音频标记(AT)的不同转写任务以生成音频信号的元数据。元数据包括音频信号中的多个并发音频事件的不同类型的属性。根据一些实施方式,神经网络包括变换器模型和基于联结时间分类(CTC)的模型,并且可被训练以对音频信号执行ASR、AED和AT转写任务。另外,一些实施方式的目的是针对ASR和AED任务与基于CTC的模型联合地训练变换器模型。另外地或另选地,一些实施方式的目的是针对AT任务使用基于注意力的变换器模型。
一些实施方式旨在分析音频场景以识别(例如,检测并分类)形成音频场景的音频事件。音频事件的检测和分类包括确定音频场景的音频信号承载的音频事件的不同类型的属性。音频信号可承载多个音频事件。音频事件的示例包括:语音事件,包括用户所说的词语;非语音事件,包括各种感叹以及非人声声音,例如常规住户声音(关门、水槽流水等)、工业加工声音或其它声音。此外,音频场景可包括同时(即,时间上交叠)或依次(即,时间上不交叠)发生的不同类型的音频事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180067206.4/2.html,转载请声明来源钻瓜专利网。