[发明专利]一种融合用户满意度的任务导向型对话策略学习方法在审

申请号：	202210738419.1	申请日：	2022-06-27
公开（公告）号：	CN115344667A	公开（公告）日：	2022-11-15
发明（设计）人：	王振宇;张睿	申请（专利权）人：	华南理工大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/332;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06N20/00
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	江裕强
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合用户满意任务导向对话策略学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合用户满意度的任务导向型对话策略学习方法，其特征在于，包括以下步骤：

S1、收集人机对话数据并结合任务场景进行数据清洗；

S2、对数据清洗后的人机对话数据进行预处理，提取出对话中的意图、槽值和情绪状态信息，并进行向量化表示；

S3、构建以任务完成效率为目标的对话策略模块，评估候选响应动作的动作价值；

S4、构建以用户满意度为目标的情感策略模块，评估对候选响应动作的情感价值；

S5、构建加权融合模块，获取候选响应动作对应的聚合动作价值与动作情感价值的总得分，并根据总得分预测响应动作；

S6、获取执行步骤S5中预测的响应动作后的对话状态、奖励和用户真实情绪状态信息，优化对话策略模块和情感策略模块的网络参数。

2.根据权利要求1所述的融合用户满意度的任务导向型对话策略学习方法，其特征在于，步骤S1具体包括以下步骤：

S1.1、从现有的人机对话系统和公开的任务型对话数据集中收集人机对话数据；

S1.2、根据任务场景对所收集的人机对话数据进行清洗，过滤掉存在信息缺失和噪声的人机对话数据样本。

3.根据权利要求1所述的融合用户满意度的任务导向型对话策略学习方法，其特征在于，步骤S2具体包括以下步骤：

S2.1、采用自然语言处理工具，从清洗后的人机对话数据中通过基于深度学习的语义分类识别每轮对话中用户的意图，并通过基于深度学习的命名实体识别技术提取出相应的对话语义槽；

S2.2、通过基于深度学习的文本情感分类算法，从清洗后的人机对话数据中识别每轮对话中用户的情绪状态的类别及其强度；

S2.3、根据步骤S2.1中获取的用户的意图和对话语义槽槽值，通过对话状态跟踪得到当前对话状态信息并将当前对话状态信息和步骤S2.2中获取的用户的情绪状态的类别及其强度通过Lookup-Table映射为向量化表示，得到当前对话状态向量。

4.根据权利要求3所述的融合用户满意度的任务导向型对话策略学习方法，其特征在于，步骤S3具体包括以下步骤：

S3.1、定义对话策略模块的强化学习奖励函数r，具体如下：

其中，L为人机对话系统所允许的最大对话长度；对话长度是机器和用户进行的最大对话轮数；奖励函数r将用于策略学习的训练；

S3.2、将步骤S2.3所得到的当前对话状态向量作为对话策略模块的输入；其中，对话策略模块通过带有tanh激活函数的线性网络进行特征提取和特征变换；

S3.3、由对话策略模块预测每个候选响应动作的动作价值，并选取动作价值最高的K个候选响应动作形成候选响应动作集合A_candidate，即对话策略模块是根据输入的当前对话状态向量，输出现有的响应动作集合中动作价值最高的K个候选响应动作形成候选响应动作集合A_candidate；候选响应动作为系统代理根据对话预测出来的响应动作集合，是一个经过排序的集合。

5.根据权利要求1所述的融合用户满意度的任务导向型对话策略学习方法，其特征在于，步骤S4具体包括以下步骤：

S4.1、通过Lookup-Table映射得到候选动作集合A_candidate中的每个候选响应动作和用户在当前时刻t的情感状态对应的候选响应动作向量和当前情感状态向量，将候选响应动作向量、当前情感状态向量和当前对话状态向量输入到情感策略模块，情感策略模块预测执行该候选响应动作后用户在下一时刻的情绪状态

S4.2、采用情感效用函数U估算各候选响应动作的情感价值，计算为：

其中，Z(·)函数表示为积极情感和消极情感的差值，计算方式为：

其中，和分别为用户在t时刻的积极和消极情绪的总强度，下标t表示状态所包括的时间信息，上标pos和neg分别对应积极和消极情感；和分别为所预测的用户在t+1时刻积极和消极情绪的总强度，和是根据文本的情感分类得到。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210738419.1/1.html，转载请声明来源钻瓜专利网。

上一篇：用户出行方式识别方法及装置
下一篇：新能源汽车电池汇流排的焊接区域快速定位方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合用户满意度的任务导向型对话策略学习方法在审

专利文献下载