[发明专利]远场识别的处理方法和装置有效
申请号: | 201510250527.4 | 申请日: | 2015-05-15 |
公开(公告)号: | CN104952450B | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 魏建强;崔玮玮 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 处理 方法 装置 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种远场识别的处理方法和装置。
背景技术
远场识别技术,也即远距离识别技术,通常是为了解决说话人距离语音设备2米之外场景的语音识别请求。在远场识别时,会采用远场识别模型,远场识别模型是对远场识别训练数据进行训练后建立的。
现有技术中,在获取远场识别训练数据时,一种方法是直接录制方法,但是,这种方法效率以及数据覆盖率较差,并且无法利用已有的近场识别训练数据,为了解决直接录制方法的问题,还可以采用声学传递函数(Acoustic transfer function,ATF)估计方法。
ATF估计方法需要事先选择一些有代表性的应用环境,录制特定的参考信号,进而计算对应环境的ATF。为了提高远场识别模型的准确度,就需要尽可能多的获取不同应用环境的ATF,现有技术中通常需要用户配合,让用户在实际使用环境中播放特定信号以获取多样化的ATF估计。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种远场识别的处理方法,该方法可以不需要用户额外参与,降低对用户的打扰,从而提升用户体验。
本发明的另一个目的在于提出一种远场识别的处理装置。
为达到上述目的,本发明第一方面实施例提出的远场识别的处理方法,包括:根据AEC模块采集的ATF,获取应用环境的ATF,所述AEC模块位于语音识别交互系统内,所述语音识别交互系统位于所述应用环境内;获取近场识别训练数据;根据所述应用环境的ATF和所述近场识别训练数据,得到对应所述应用环境的远场识别训练数据。
本发明第一方面实施例提出的远场识别的处理方法,不需要额外的用户参与或播放特殊信号,整个工作完全基于AEC模块采集的ATF,可以不需要用户额外参与,降低对用户的打扰,从而提升用户体验。
为达到上述目的,本发明第二方面实施例提出的远场识别的处理装置,包括:第一获取模块,用于根据AEC模块采集的ATF,获取应用环境的ATF,所述AEC模块位于语音识别交互系统内,所述语音识别交互系统位于所述应用环境内;第二获取模块,用于获取近场识别训练数据;第三获取模块,用于根据所述应用环境的ATF和所述近场识别训练数据,得到对应所述应用环境的远场识别训练数据。
本发明第二方面实施例提出的远场识别的处理装置,不需要额外的用户参与或播放特殊信号,整个工作完全基于AEC模块采集的ATF,可以不需要用户额外参与,降低对用户的打扰,从而提升用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的远场识别的处理方法的流程示意图;
图2是本发明实施例中获取应用环境的ATF的流程示意图;
图3是本发明另一实施例提出的远场识别的处理方法的流程示意图;
图4是本发明另一实施例提出的远场识别的处理方法的流程示意图;
图5是本发明另一实施例提出的远场识别的处理装置的结构示意图;
图6是本发明另一实施例提出的远场识别的处理装置的结构示意图;
图7是本发明另一实施例提出的远场识别的处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的远场识别的处理方法的流程示意图,该方法包括:
S11:根据AEC模块采集的ATF,获取应用环境的ATF,所述AEC模块位于语音识别交互系统内,所述语音识别交互系统位于所述应用环境内。
其中,为了消除干扰信号,语音识别交互系统中通常会包括声回波消除(Acoustic echo cancellation,AEC)模块,AEC模块通常称为BargeIn功能模块。
干扰信号例如为语音识别交互系统产生的音乐,语音合成(text to speech,TTS)信号等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510250527.4/2.html,转载请声明来源钻瓜专利网。