[发明专利]语音处理方法、装置、设备及存储介质在审

申请号：	202310138496.8	申请日：	2023-02-14
公开（公告）号：	CN116312477A	公开（公告）日：	2023-06-23
发明（设计）人：	李良斌	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/06;G10L15/26;G10L15/30;H04L67/55
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	邢少真
地址：	100094 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音处理方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语音处理方法、装置、设备及存储介质，属于人工智能领域。本申请基于通讯服务器、语音识别服务器、二者之间建立的长连接，实现了将来自用户的通话语音流实时推送至语音识别服务器、实时语音识别以及将语音识别结果实时返回至通讯服务器，进而通讯服务器便可将语音识别结果实时推送至前端设备，即本申请支持对话内容实时展示在前端，方便业务侧分析和定位用户需求。另外，通话语音流经过语音端点检测后，能够将静音数据和噪音数据过滤掉，这样不但可以提高识别结果的准确性，而且也可以节省系统资源，减轻了服务器压力。另外，实时语音识别模型与通话语音流的语种类型相匹配，能够进一步提高识别结果的准确性。

技术领域

本申请涉及人工智能领域，特别涉及一种语音处理方法、装置、设备及存储介质。

背景技术

在人工智能(Artificial Intelligence，AI)领域，智能外呼系统(也称AI外呼机器人)是一种基于自然语言处理等技术，通过模拟人类发音和说话方式，自主与用户进行人机交互的计算机系统。

一般情况下，智能外呼系统在呼叫用户后，如果用户接听，则通常还会对用户语音进行识别，以根据识别结果分析和定位用户需求，以此作为业务扩展的基础。相关技术中，智能外呼系统将用户语音转至语音识别模块完成识别。其中，该语音识别模块以单句话为识别单位，即在一句话识别结束后，该语音识别模块才会输出针对这句话的识别结果。

由于一句话识别结束后语音识别模块才输出针对这句话的识别结果，因此倘若前端存在实时展示对话内容的需求，那么采用该种语音识别方式会导致对话内容展示的严重滞后，即前端不能实时展示用户说话内容。

发明内容

本申请实施例提供了一种语音处理方法、装置、设备及存储介质，该方法支持在前端实时展示对话内容，便于业务侧分析和定位用户需求。所述技术方案如下：

一方面，提供了一种语音处理方法，所述方法包括：

获取语音通话过程中的通话语音流；

对获取到的通话语音流进行语音端点检测，得到目标通话语音流；

采用与语音识别服务器建立的长连接，向所述语音识别服务器发送所述目标通话语音流；其中，所述语音识别服务器用于基于实时语音识别模型，对所述目标通话语音流进行实时语音识别，得到实时语音识别结果；所述实时语音识别模型与所述目标通话语音流的语种类型相匹配；

采用与所述语音识别服务器建立的长连接，接收所述语音识别服务器返回的实时语音识别结果；

将所述实时语音识别结果推送至前端设备进行展示。

在一种可能的实现方式中，所述方法还包括：

通过向所述语音识别服务器发送连接请求，与所述语音识别服务器建立WebSocket长连接；其中，所述WebSocket长连接用于保持与所述语音识别服务器之间的全双工实时通信；

周期性向所述语音识别服务器发送心跳包；其中，所述心跳包用于维持与所述语音识服务器之间的WebSocket长连接。