[发明专利]基于用户问句生成标准问题的方法和装置有效
申请号: | 202010329631.3 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111221945B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 蒋亮;温祖杰;张家兴 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 孙欣欣;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 问句 生成 标准 问题 方法 装置 | ||
1.一种基于用户问句生成标准问题的方法,所述方法包括:
获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;
提取所述第一多轮对话中第一数目轮的用户问句;
对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;
将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题;
所述文本生成模型基于训练样本预先训练;
所述训练样本通过如下方式获取:
获取用户与机器人客服的第二多轮对话;
从所述第二多轮对话中提取用户问句和匹配成功的标准问题,以作为训练样本。
2.如权利要求1所述的方法,其中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,包括:
判断所述第一数目是否小于或等于预设数目;
若所述第一数目小于或等于所述预设数目,则对所述第一数目轮的用户问句进行拼接处理,得到所述第一输入文本。
3.如权利要求2所述的方法,其中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,还包括:
若所述第一数目大于所述预设数目,则将所述第一数目轮的用户问句按照顺序分为多组用户问句,每组用户问句包含的用户问句的数目不大于所述预设数目,且相邻的两组用户问句具有交集;
对各组用户问句分别进行拼接处理,得到各组用户问句分别对应的所述第一输入文本。
4.如权利要求1所述的方法,其中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,包括:
识别所述第一数目轮的用户问句中的闲聊语句;
删除所述第一数目轮的用户问句中的闲聊语句,得到第二数目轮的用户问句;
对所述第二数目轮的用户问句进行拼接处理,得到第一输入文本。
5.如权利要求1所述的方法,其中,所述获取目标用户与人工客服的第一多轮对话之前,所述方法还包括:
确定在所述第一多轮对话之前,所述目标用户与机器人客服进行了第三多轮对话,所述第三多轮对话中未得到匹配成功的标准问题。
6.如权利要求1所述的方法,其中,所述文本生成模型包括编码器和解码器;
所述将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题,包括:
将所述第一输入文本输入所述编码器,得到语义向量;
将所述语义向量输入所述解码器,得到所述第一多轮对话对应的标准问题。
7.一种基于用户问句生成标准问题的装置,所述装置包括:
获取单元,用于获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;
提取单元,用于提取所述获取单元获取的第一多轮对话中第一数目轮的用户问句;
拼接单元,用于对所述提取单元提取的第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;
生成单元,用于将所述拼接单元得到的第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题;
所述文本生成模型基于训练样本预先训练;
所述训练样本通过如下方式获取:
获取用户与机器人客服的第二多轮对话;
从所述第二多轮对话中提取用户问句和匹配成功的标准问题,以作为训练样本。
8.如权利要求7所述的装置,其中,所述拼接单元包括:
判断子单元,用于判断所述第一数目是否小于或等于预设数目;
第一拼接子单元,用于若所述判断子单元判断出所述第一数目小于或等于所述预设数目,则对所述第一数目轮的用户问句进行拼接处理,得到所述第一输入文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010329631.3/1.html,转载请声明来源钻瓜专利网。