[发明专利]一种用户个性感知的任务导向型对话策略学习方法在审
申请号: | 202210196230.4 | 申请日: | 2022-03-01 |
公开(公告)号: | CN114611527A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 王振宇;郑孟丹 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/295;G06F3/01;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 个性 感知 任务 导向 对话 策略 学习方法 | ||
1.一种用户个性感知的任务导向型对话策略学习方法,其特征在于,包括以下步骤:
S1、收集特定场景下的人机对话数据,进行数据清洗;
S2、对清洗过的对话数据进行预处理,从对话文本中提取出用户输入语句的意图、包含的槽值,并将其进行向量化表示;
S3、基于深度强化学习方法,构建个性感知对话策略模型,个性感知对话策略模型包括个性动作模块、个性感知模块以及加权融合模块;
S4、通过个性感知模块,引入用户个性特征以及对话上下文特征,评估用户个性动作价值;
S5、个性动作模块使用深度Q学习的方法,对用户在当前状态下回复动作的价值进行建模,个性动作模块将对话状态和用户属性向量作为输入,通过前馈神经网络计算得到系统动作价值;
S6、加权融合模块对个性动作通过权重参数控制对应模块的重要程度,对个性动作模块和个性感知模块计算得到的价值进行加权相加得到系统动作的综合价值,并选择最高得分的动作作为系统回复动作;
S7、执行预测的系统对话动作,收集对话状态、反馈奖励值进而优化个性感知对话策略模型网络参数。
2.根据权利要求1所述的一种用户个性感知的任务导向型对话策略学习方法,其特征在于,步骤S1具体包括以下步骤:
S11、收集人机交互对话数据,从现有的人机对话系统以及公开的任务型对话数据集中进行收集;
S12、基于特定的应用任务场景,对所收集到的人机交互对话数据进行数据清洗,去除部分缺失数据信息的人机对话数据样本和带有噪声的人机对话数据样本。
3.根据权利要求1所述的一种用户个性感知的任务导向型对话策略学习方法,其特征在于,步骤S2具体包括以下步骤:
S21、使用基于深度学习的语义分类和命名实体识别技术从清洗过后的人机对话数据中对每轮对话中用户的意图进行识别和语义槽提取;
S22、基于获取的用户意图和对话语义槽值,通过对话状态跟踪得到当前对话状态信息,并将当前对话状态信息通过映射表和词向量矩阵得到对话状态的向量化表示,即对话状态向量。
4.根据权利要求3所述的一种用户个性感知的任务导向型对话策略学习方法,其特征在于,步骤S4具体包括以下步骤:
S41、对收集到的对话样本数据赋予用户个性属性槽值对,通过独热编码转化为独热向量,拼接得到用户属性向量;
S42、将t-1时刻的系统回复动作和t时刻的用户回复动作作为系统用户动作对,选择窗口大小为k的动作对,通过带注意力机制的GRU编码对话历史特征,得到用户历史向量;将用户属性向量和用户历史向量作为输入,通过两层带有tanh激活的前馈神经网络计算得到用户个性动作价值,计算公式如下:
其中,pa为用户属性向量;为t时刻时得到的用户历史向量;表示对向量进行拼接;
最后一层输出层前馈神经网络神经元个数为系统可选动作集合大小。
5.根据权利要求4所述的一种用户个性感知的任务导向型对话策略学习方法,其特征在于,步骤S5具体包括以下步骤:
S51、将步骤S22所得到的当前对话状态向量和步骤S41所得到的用户属性向量作为个性动作模块的输入;个性动作模块通过带有tanh激活的线性网络进行特征提取和特征变换;
S52、个性动作模块使用深度Q学习的方法,对用户在当前状态s下回复动作的价值进行建模,个性动作模块将对话状态s、用户属性向量作为输入,通过前馈神经网络计算得到每个可选回复动作的效率价值。
6.根据权利要求1所述的一种用户个性感知的任务导向型对话策略学习方法,其特征在于,步骤S6具体包括以下步骤:
S61、对于候选回复动作集合中的每个动作,通过加权融合公式计算其综合价值Qfinal,具体如下:
Qfinal=α×Q+(1-α)×P
其中,α为权重参数;
S62、比较候选响应动作集合中各个动作的综合价值,选取价值最高的动作作为个性感知对话策略模型的输出。
7.根据权利要求1所述的一种用户个性感知的任务导向型对话策略学习方法,其特征在于,步骤S7具体包括以下步骤:
S71、定义个性感知对话策略模型的强化学习奖励函数r,具体奖励反馈方式如下:
其中,L为预先定义好的对话系统所允许的最大对话长度;
S72、在每轮交互中,收集用户个性向量、对话上下文向量、对话中的动作以及对话状态数据,存储至经验回放池;
通过最小化平方损失反向传播梯度下降更新个性感知对话策略模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210196230.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种拓宽稳定性边界的燃烧室
- 下一篇:靶标自动切换装置