[发明专利]文本回声消除在审
申请号: | 202180040717.7 | 申请日: | 2021-03-11 |
公开(公告)号: | CN115699170A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 王泉 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/30;G10L13/02;G10L21/0216;G10L21/0264 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 回声 消除 | ||
一种方法(400)包括:接收包括由说话者(10)说出的与合成回放音频(154)的片段(156)重叠的音频的重叠音频信号(202)。该方法还包括将与合成回放音频相对应的字符序列编码成文本嵌入表示(212)。针对字符序列中的每个字符,该方法还包括使用文本嵌入表示来生成相应的消除概率(222)。消除概率指示对应的字符与合成回放音频的片段相关联的似然性,该合成回放音频的片段与由说话者说出的音频在重叠音频信号中重叠。
技术领域
本公开涉及文本回声消除。
背景技术
当音频系统捕获和传送音频时,这些外围设备可能受到回声的影响。当从音频播出设备(例如,扬声器)生成的可听信号以声波的形式传播通过声学环境(例如,空气)并且该波的修改版本反射回麦克风时,通常发生回声。另一个形式的回声是电回声,其由于音频播出设备(例如扬声器)和麦克风之间的不期望的电耦合效应而出现。由这样的回声路径生成的信号然后变为被传送作为音频回声。回声可能由于诸如例如外围设备的接近度或外围设备的质量的各种因素而产生。当在一个或多个设备正在施行语音处理的启用语音的环境内发生回声时,回声可能对语音处理的准确性有不利影响;因此影响用户对设备和/或语音系统的体验。随着人们越来越多地使用经受回声的系统进行通信,可以实现回声消除系统和方法以改进被回声影响的语音处理的质量。
发明内容
本公开的一个方面提供了一种计算机实现的方法,当在数据处理硬件上执行时,该方法使得数据处理硬件施行包括以下的操作:接收包括由说话者说出的与合成回放音频的片段重叠的音频的重叠音频信号,以及将与合成回放音频对应的字符序列编码成文本嵌入表示。所述操作还包括针对字符序列中的每个字符,使用文本嵌入表示来生成相应的消除概率,并且使用被配置成接收重叠音频信号和针对字符序列中的每个字符所生成的相应的消除概率作为输入的消除神经网络,通过从重叠音频信号中移除合成回放音频的片段,来生成增强音频信号。每个相应的消除概率指示相应的字符与合成回放音频的片段相关联的似然性,该合成回放音频的片段由说话者说出的音频在重叠音频信号中重叠。
本公开的实施方式可以包括以下可选特征中的一个或多个特征。在一些实施方式中,对字符序列进行编码包括将字符序列中的每个字符编码成相应的字符嵌入以生成字符嵌入序列。在这些实施方式中,重叠音频信号可以包括帧序列,并且针对字符序列中的每个字符生成相应的消除概率可以包括:当对应的字符嵌入与重叠音频信号的帧序列中的一个帧相对应时,使用注意力机制将权重应用于对应的字符嵌入。帧序列中的每个帧与由说话者说出的音频的与合成回放音频的片段重叠的一部分相对应。
文本到语音(TTS)系统可以将字符序列转换成包括合成回放音频的合成语音。可选地,文本嵌入表示可以包括单个固定维文本嵌入向量。在一些示例中,文本编码神经网络的文本编码器将与合成回放音频对应的字符序列编码成文本嵌入表示。在这些示例中,文本编码器可以由被配置成从字符序列生成合成回放音频的TTS系统共享。
在一些实施方式中,操作进一步包括在多个训练示例上训练消除神经网络,其中每个训练示例包括:与非合成语音相对应的真实值音频信号,包括真实值音频信号的、与合成音频信号重叠的训练重叠音频信号,以及合成音频信号的相应文本表示。这里,文本表示包括字符序列。
消除神经网络可以包括具有多个LSTM层的长短期记忆(LSTM)网络。操作可以进一步包括接收合成回放音频的文本表示是可用的指示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180040717.7/2.html,转载请声明来源钻瓜专利网。