[发明专利]上下文感知语音可懂度增强在审
申请号: | 202080063374.1 | 申请日: | 2020-09-09 |
公开(公告)号: | CN114402388A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | D·诺;P·丘巴列夫;郭晓雨 | 申请(专利权)人: | DTS公司 |
主分类号: | G10L21/0364 | 分类号: | G10L21/0364;G10L25/18;H03G3/32 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 刘前红 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 上下文 感知 语音 可懂度 增强 | ||
一种方法包括:用麦克风检测环境中的噪声以产生噪声信号;接收要通过扬声器播放到环境中的语音信号;基于麦克风的麦克风传递函数执行噪声信号的多频带校正,以产生校正后的噪声信号;基于扬声器的扬声器传递函数执行语音信号的多频带校正,以产生校正后的语音信号;以及基于校正后的噪声信号和校正后的语音信号计算多频带语音可懂度结果。
优先权声明
本申请要求2019年9月11日提交的美国临时申请No.62/898,977的优先权,其通过引用整体并入本文。
技术领域
本公开涉及语音可懂度处理。
背景技术
诸如人工智能(Al)喇叭、移动电话、电话会议、物联网(IoT)设备等的语音回放设备经常用于包括高等级背景噪声的声学环境中。语音回放设备播放的语音可能被背景噪声掩盖,导致语音可懂度降低。有许多提高语音可懂度的技术可用。其中一些技术还利用噪声捕获设备来增强嘈杂环境中的语音可懂度。然而,这些技术没有指定和解决与特定于实现方式的限制相关联的实际挑战,诸如回放设备的物理限制、噪声捕获设备的物理限制、语音可懂度处理的信号净空以及长期语音特性。
附图说明
图1是在其中可以实现针对语音可懂度处理的实施例的示例系统的高级框图。
图2是在图1的系统中实现的示例语音可懂度处理器(VIP)和相关联的语音和噪声处理的框图。
图3示出了语音可懂度指数(SII)的频带-重要性函数的示例曲线图。
图4示出了两个不同扬声器的示例扬声器频率响应。
图5是示例理想化麦克风频率响应和示例理想化扬声器频率响应,以及基于这两个频率响应之间的相互关系确定的各种频率分析范围的频率曲线图。
图6示出了语音信号的短片段及其对应频谱的曲线图。
图7示出了语音信号的另一短片段及其对应频谱的曲线图。
图8示出了语音信号的长片段及其对应频谱的曲线图。
图9是VIP的语音增强器的一部分的高级块/信号流程图。
图10是VIP执行的多频带语音可懂度分析/处理和语音可懂度增强的示例方法的流程图。
具体实施方式
解决上述挑战和顾虑可以实现从未处理语音到处理后语音的自然转换的最佳性能。因此,本文提供的实施例引入了用于语音可懂度分析的新颖特征和改进,其提高了噪声环境中的语音可懂度,并克服了本文描述的实际挑战。实施例包括但不限于:(1)结合多频带语音和噪声校正的数字到声学等级转换,(2)短片段语音可懂度分析,(3)长片段的语音和噪声描画(profiling),以及(4)全局和每频带增益分析。因为在实施例中执行的分析结果产生用于回放的语音信号的相对增益调整参数,既有宽带的、又有每个频带的,所以在实施例中的处理不限于特定的音频信号处理,并且可以包括诸如压缩器、扩展器和共振峰增强的已知动态处理的任意组合。
如本文所使用的,术语:“话音”、“语音”和“语音/话音”是同义词并且可以互换使用;“帧”、“片段”和“时间片段”是同义词并且可以互换使用;“话音(或语音)可懂度”和“可懂度”是同义词并且可以互换使用;“区间(bin)”和“频带”是同义词并且可以互换使用;以及“带宽(BW)”和“通带”是同义词并且可以互换使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于DTS公司,未经DTS公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080063374.1/2.html,转载请声明来源钻瓜专利网。