[发明专利]一种语音对话处理方法和系统有效

申请号：	202010731224.5	申请日：	2020-07-27
公开（公告）号：	CN111862977B	公开（公告）日：	2021-08-10
发明（设计）人：	徐海洋;韩堃	申请（专利权）人：	北京嘀嘀无限科技发展有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/18;G10L15/16
代理公司：	成都七星天知识产权代理有限公司 51253	代理人：	杨永梅
地址：	100193 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音对话处理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开一种语音对话处理方法和系统。该方法包括：获取目标语音对话数据；基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；将文本向量表示序列、音标向量表示序列和角色向量表示序列输入训练好的语音对话编码模型，确定目标语音对话数据对应的表示向量；将表示向量输入分类模型，确定目标语音对话数据的摘要。本申请实施例公开的方法，通过在对模型进行训练的过程中融入音标、角色等信息，可以减少口语理解过程中的语义识别错误，理解对话逻辑，提高语义识别准确性。

技术领域

本申请涉及数据处理领域，特别涉及一种语音对话的处理方法、系统、装置以及计算机可读存储介质。

背景技术

随着人工智能技术的发展，语音识别技术广泛应用于各种领域，例如，智能家居、智能客服等。语音交互的核心是机器如何正确地理解用户的意图，从而做出正确的回应来帮助用户快速准确地解决问题。然而随着应用场景的逐渐扩展，在复杂的现实场景中，语音识别的性能很难得到保障。因此，有必要提供一种语音对话处理方法和系统，提高语义理解的准确性。

发明内容

本申请实施例的一方面涉及一种方法，用于处理语音对话，所述方法包括：获取目标语音对话数据；基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；将所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列输入训练好的语音对话编码模型，确定所述目标语音对话数据对应的表示向量；将所述表示向量输入分类模型，确定所述目标语音对话数据的摘要。

本申请实施例的另一方面涉及一种系统，用于处理语音对话，所述系统包括：获取模块，可以用于获取目标语音对话数据；确定模块，可以用于基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；输入模块，可以用于将所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列输入训练好的语音对话编码模型，确定所述目标语音对话数据对应的表示向量；处理模块，可以用于将所述表示向量输入分类模型，确定所述目标语音对话数据的摘要。

本申请实施例的另一方面涉及一种装置，用于处理语音对话，所述装置包括处理器和存储设备，所述存储设备用于存储指令，当所述处理器执行所述指令时，实现上述用于提取语音对话摘要的方法。

本申请实施例的另一方面涉及一种计算机可读存储介质，所述存储介质存储计算机指令，所述计算机指令被处理器执行时，实现上述用于提取语音对话摘要的方法。

附图说明

本申请将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，

其中：

图1是根据本申请一些实施例所示的示例性语音对话处理系统的应用场景示意图；

图2是根据本申请一些实施例所示的示例性第一处理设备的模块图；

图3是根据本申请一些实施例所示的用于训练语音对话编码模型的示例性方法

的示意图；

图4是根据本申请一些实施例所示的基于自监督学习方式训练语音对话编码模

型的示例性方法的示意图；

图5是根据本申请一些实施例所示的示例性第二处理设备的模块图；