[发明专利]解决基于感知的对抗音频攻击的自动语音识别系统在审
申请号: | 202010546508.7 | 申请日: | 2020-06-15 |
公开(公告)号: | CN112086093A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 杰里米·科尔特;约瑟夫·苏里 | 申请(专利权)人: | 罗伯特·博世有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L25/60;G10L25/24;G10L15/01 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 于未茗 |
地址: | 德国斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 解决 基于 感知 对抗 音频 攻击 自动 语音 识别 系统 | ||
1.一种用于语音识别的计算机实施的方法,所述方法包括:
对音频输入信号进行采样,以生成时域采样的输入信号;
将所述时域采样的输入信号转换为频域输入信号;
响应于所述频域输入信号的临界频带的频率分量生成感知权重;
响应于所述感知权重产生时域对抗信号;以及
将所述时域对抗信号与所述音频输入信号组合,以产生组合音频信号,其中,所述组合音频信号的语音处理输出与所述音频输入信号的语音处理不同的结果。
2.根据权利要求1所述的计算机实施的方法,其中,所述时域对抗信号是基于感知的损失信号和对抗损失信号的组合。
3.根据权利要求2所述的计算机实施的方法,其中,所述基于感知的损失信号和所述对抗损失信号的所述组合由以下方程表示:
其中,δ是范数约束。
4.根据权利要求3所述的计算机实施的方法,其中,所述范数约束δ是12范数约束,并且所述基于感知的损失和所述对抗损失的组合经由投影梯度下降(PGD)方法来求解。
5.根据权利要求1所述的计算机实施的方法,其中,所述时域采样的输入信号经由对称算法转换成所述频域输入信号,该对称算法包括快速傅里叶变换、离散傅里叶变换或对称滤波器组。
6.根据权利要求1所述的计算机实施的方法,其中,对所述音频输入信号采样是经由模数A/D转换器,并且输出所述时域对抗是直接到数模D/A转换器。
7.根据权利要求1所述的计算机实施的方法,还包括以下步骤:经由人耳的心理声学模型识别所述临界频带。
8.根据权利要求7所述的计算机实施的方法,其中,所述心理声学模型是MPEG心理声学模型或AAC心理声学模型。
9.一种有形地具体实施用于软件程序的计算机可读指令的非暂时性计算机可读介质,所述软件程序可由计算装置的处理器执行,以提供操作,这些操作包括:
对音频输入信号进行采样,以生成时域采样的输入信号;
将所述时域采样的输入信号转换为频域输入信号;
响应于所述频域输入信号的临界频带的频率分量生成感知权重;
响应于所述感知权重产生时域对抗信号;以及
将所述时域对抗信号与所述音频输入信号组合,以产生组合音频信号。
10.根据权利要求9所述的非暂时性计算机可读介质,其中,所述软件程序可由所述计算装置的所述处理器执行,以提供另外的操作,该操作作包括:经由人耳的心理声学模型识别所述临界频带。
11.根据权利要求10所述的非暂时性计算机可读介质,其中,所述时域对抗信号是基于感知的损失信号和对抗损失信号的组合。
12.根据权利要求11所述的非暂时性计算机可读介质,其中,所述基于感知的损失和所述对抗损失的所述组合由以下方程表示:
13.根据权利要求12所述的非暂时性计算机可读介质,其中,对所述音频输入信号采样是经由模数A/D转换器,并且输出所述时域对抗信号是直接到数模D/A转换器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010546508.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:光学子组件结构
- 下一篇:动态提供在中继设备中用于认证的密钥的方法