[发明专利]语音处理方法、装置、设备及存储介质在审
申请号: | 202310138496.8 | 申请日: | 2023-02-14 |
公开(公告)号: | CN116312477A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 李良斌 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/26;G10L15/30;H04L67/55 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢少真 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 设备 存储 介质 | ||
本申请公开了一种语音处理方法、装置、设备及存储介质,属于人工智能领域。本申请基于通讯服务器、语音识别服务器、二者之间建立的长连接,实现了将来自用户的通话语音流实时推送至语音识别服务器、实时语音识别以及将语音识别结果实时返回至通讯服务器,进而通讯服务器便可将语音识别结果实时推送至前端设备,即本申请支持对话内容实时展示在前端,方便业务侧分析和定位用户需求。另外,通话语音流经过语音端点检测后,能够将静音数据和噪音数据过滤掉,这样不但可以提高识别结果的准确性,而且也可以节省系统资源,减轻了服务器压力。另外,实时语音识别模型与通话语音流的语种类型相匹配,能够进一步提高识别结果的准确性。
技术领域
本申请涉及人工智能领域,特别涉及一种语音处理方法、装置、设备及存储介质。
背景技术
在人工智能(Artificial Intelligence,AI)领域,智能外呼系统(也称AI外呼机器人)是一种基于自然语言处理等技术,通过模拟人类发音和说话方式,自主与用户进行人机交互的计算机系统。
一般情况下,智能外呼系统在呼叫用户后,如果用户接听,则通常还会对用户语音进行识别,以根据识别结果分析和定位用户需求,以此作为业务扩展的基础。相关技术中,智能外呼系统将用户语音转至语音识别模块完成识别。其中,该语音识别模块以单句话为识别单位,即在一句话识别结束后,该语音识别模块才会输出针对这句话的识别结果。
由于一句话识别结束后语音识别模块才输出针对这句话的识别结果,因此倘若前端存在实时展示对话内容的需求,那么采用该种语音识别方式会导致对话内容展示的严重滞后,即前端不能实时展示用户说话内容。
发明内容
本申请实施例提供了一种语音处理方法、装置、设备及存储介质,该方法支持在前端实时展示对话内容,便于业务侧分析和定位用户需求。所述技术方案如下:
一方面,提供了一种语音处理方法,所述方法包括:
获取语音通话过程中的通话语音流;
对获取到的通话语音流进行语音端点检测,得到目标通话语音流;
采用与语音识别服务器建立的长连接,向所述语音识别服务器发送所述目标通话语音流;其中,所述语音识别服务器用于基于实时语音识别模型,对所述目标通话语音流进行实时语音识别,得到实时语音识别结果;所述实时语音识别模型与所述目标通话语音流的语种类型相匹配;
采用与所述语音识别服务器建立的长连接,接收所述语音识别服务器返回的实时语音识别结果;
将所述实时语音识别结果推送至前端设备进行展示。
在一种可能的实现方式中,所述方法还包括:
通过向所述语音识别服务器发送连接请求,与所述语音识别服务器建立WebSocket长连接;其中,所述WebSocket长连接用于保持与所述语音识别服务器之间的全双工实时通信;
周期性向所述语音识别服务器发送心跳包;其中,所述心跳包用于维持与所述语音识服务器之间的WebSocket长连接。
在一种可能的实现方式中,所述对获取到的通话语音流进行语音端点检测,得到目标通话语音流,包括:
确定语音通话过程中的背景环境类型;
采用与所述背景环境类型相匹配的语音端点检测模型,对获取到的通话语音流进行语音端点检测,得到所述目标通话语音流;
其中,所述语音端点检测模型是基于训练样本集对预训练模型进行再训练得到的,所述训练样本集中包括在相应背景环境下采集的语音数据。
另一方面,提供了一种语音处理方法,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310138496.8/2.html,转载请声明来源钻瓜专利网。