[发明专利]语音数据处理的方法、装置、设备、存储介质及程序产品在审
申请号: | 202011568883.8 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112509567A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 周毅;左声勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/10 | 分类号: | G10L15/10;G10L21/0208;G10L15/20;G10L15/22 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 钭飒飒;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 数据处理 方法 装置 设备 存储 介质 程序 产品 | ||
本申请公开了一种语音数据处理的方法、装置、设备、存储介质及程序产品,涉及语音技术、车联网等人工智能领域。具体实现方案为:通过获取采集的语音数据和播报的播报信息,将语音数据与播报信息进行相似度匹配,来确定语音数据中所包含的播报信息,然后将语音数据中所包含的播报信息去除,得到语音数据中所包含的用户指令信息,能够准确地去除语音数据中包含的播报信息,得到精准地用户指令信息,提高了用户指令信息识别的准确性。
技术领域
本申请涉及语音技术、车联网等人工智能领域,尤其涉及一种语音数据处理的方法、装置、设备、存储介质及程序产品。
背景技术
语音助手被唤醒或者响应用户指令的时候,会播报对应的语音信息。语音助手播报的语音信息是基于TTS(Text To Speech,从文本到语音)文本通过TTS引擎合成的语音,也称为播报语音,TTS文本也称为播报文本。用户通过唤醒词唤醒语音助手后,语音助手会播报“在啊”“早上好”“我来了”……等等播报语音,在被唤醒后语音助手会通过麦克风采集用户的语音指令,此时播放出来播报语音会再次被麦克风采集进去,采集的语音数据中不仅包含语音指令,还包含了上次播报的播报语音。
为了消除麦克风采集的语音数据中的播报语音,通常通过回声消除算法能够对播报语音进行抑制,但是在一些车辆或者音响上,因为硬件以及声学环境的差异播报语音无法被完全抑制,语音数据中仍然存在残余的播报语音,对语音数据进行语音识别的结果中会包含播报文本信息,还会会显示在屏幕上。
发明内容
本申请提供了一种语音数据处理的方法、装置、设备、存储介质及程序产品。
根据本申请的一方面,提供了一种语音数据处理的方法,包括:
获取采集的语音数据、播报的从文本到语音播报信息;
将所述语音数据与所述播报信息进行相似度匹配,确定所述语音数据中所包含的播报信息;
去除所述语音数据中所包含的播报信息,得到所述语音数据所包含的用户指令信息。
根据本申请的另一方面,提供了一种语音数据处理的装置,包括:
数据获取模块,用于获取采集的语音数据、播报的从文本到语音播报信息;
相似度匹配模块,用于将所述语音数据与所述播报信息进行相似度匹配,确定所述语音数据中所包含的播报信息;
播报信息去除模块,用于去除所述语音数据中所包含的播报信息,得到所述语音数据所包含的用户指令信息。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述所述的方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述所述的方法。
根据本申请的技术提高对用户指令信息的识别的准确性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的智能交互的系统的框架示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011568883.8/2.html,转载请声明来源钻瓜专利网。