[发明专利]数据处理方法以及装置在审

申请号：	202111028716.9	申请日：	2021-09-02
公开（公告）号：	CN113918712A	公开（公告）日：	2022-01-11
发明（设计）人：	武玉川;黎航宇;李永彬;孙健	申请（专利权）人：	阿里巴巴达摩院（杭州）科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/332
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	吴肖肖
地址：	310023 浙江省杭州市余杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法以及装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供数据处理方法以及装置，其中所述数据处理方法包括：获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集，其中，每个对话集包含至少一个对话片段，确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果，根据所述第一聚类结果确定所述目标对话角色的对话意图信息，确定每个对话集中与所述第一对话片段关联的第二对话片段，并根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据。

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着越来越多线上服务平台的出现，用户可通过服务平台进行线上咨询，这无疑为用户的生活增加了便利性。由于目前用户的线上服务咨询，例如：用户基于商品详情发出的提问，或基于电商平台所提供服务发出的提问，通常是基于人工在线回复，或人工依据预先设置好的答复模板通过设置的客服机器人进行回复，耗费大量人工成本。

目前大多服务平台对此所做出的改进大多是，由项目提供方采用预先构建的知识库生成相关话术，而目前知识库的构建以及话术的生成完全依赖人工或者通过挖掘高频的客户消息辅助人工，初期的人工成本非常高，并且由于知识需要迭代更新，因此知识库的更迭还需要由人工来持续维护，导致的维护成本高的问题，因此，亟需提出一种有效的方法以解决此类问题。

发明内容

有鉴于此，本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理方法，包括：

获取包含至少两个对话角色的历史对话数据，将所述历史对话数据划分为至少两个对话集，其中，每个对话集包含至少一个对话片段；

确定每个对话集中包含目标对话轮次的第一对话片段，并对所述第一对话片段中目标对话角色的对话数据进行聚类，生成对应的第一聚类结果；

根据所述第一聚类结果确定所述目标对话角色的对话意图信息；

确定每个对话集中与所述第一对话片段关联的第二对话片段，并根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据。

可选地，所述根据所述第二对话片段，确定与所述对话意图信息对应的目标对话数据，包括：

对每个对话集中的第二对话片段进行语义分析，并根据分析结果对所述第二对话片段进行标注；

根据生成的标注结果确定与对话意图信息对应的目标对话路径；

根据所述目标对话路径对应的第二对话片段，生成与所述对话意图信息对应的目标对话数据。

可选地，所述根据生成的标注结果确定与对话意图信息对应的目标对话路径，包括：