[发明专利]一种融合基础知识与用户信息的对话生成方法在审
申请号: | 202310058399.8 | 申请日: | 2023-01-19 |
公开(公告)号: | CN116010575A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 覃远年;黎桂成;吴冬雪;雷送强;宁波;卢玉胜 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F18/25;G06F18/214;G06N3/0499;G06N3/084 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 罗玉荣 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 基础知识 用户信息 对话 生成 方法 | ||
本发明公开了一种融合基础知识与用户信息的对话生成方法,包括:构建用户信息数据集、人机对话数据集,从大数据平台获取基础知识数据集,将数据集送入采用多输入Transformer结构的编码器、解码器,分别对历史对话、用户个人信息、基础知识进行编码计算注意力向量,再将各项注意力向量线性融合,使语言模型更加全面考虑这三部分内容以生成更合理的回复。这种方法兼顾处理知识和角色信息能提高人机对话的体验感提升语言回复的质量。
技术领域
本发明涉及人工智能自然语言生成技术领域,特别涉及一种融合基础知识与用户信息的对话生成方法。
背景技术
近年来,人机智能对话技术蓬勃发展,已经运用在了很多领域中,比如在线客服、线上医疗咨询、心理咨询以及自动问答等等,人工智能在给人们提供信息的对话生成方面得到大量运用。但大多数人对AI智能人机对话的印象,还停留在“Hey Siri”和“小度小度”,这类对话连陪聊都经常是前言不搭后语,只会对特定的指令有反应,且反应的话术也都是预制的无法兼顾各类型用户的需求。按照人类交谈的模式,当人们向他人提供信息时,会考虑对方的背景和兴趣,因为不同人的兴趣背景不一样。在不考虑对话对象自身信息的情况下提供大量知识可能会给对方过多无用信息,导致用户体验下降。在人类的这种交谈背景下,对话系统需要结合先验知识与角色信息从而给出回复才能更有效地为用户提供信息。现有数据集与对话生成模型鲜少考虑知识和角色信息,在生成融合知识与角色信息的对话方面存在局限性。
发明内容:
本发明的目的是针对现有技术的不足,而提供一种融合基础知识与用户信息的对话生成方法。这种方法兼顾处理知识和角色信息能提高人机对话的体验感提升语言回复的质量。
实现本发明目的的技术方案是:
一种融合基础知识与用户信息的对话生成方法,包括如下步骤:
1)构建基于知识与角色信息的对话数据集:由于现有对话数据集没有融合知识和角色信息,需要构建一个同时具有知识与角色信息的训练数据集,包括:基于基础知识数据库DBpedia的数据集D=[d1,d2,...,dn]、用户特征信息数据集P=(p1,p2,....,pn)、采用带有角色信息标注的语句进行人机交互获取对话数据,对话数据包括提问语句和回复语句lm表示提问语句,表示回复语句;
2)获取用户信息嵌入向量、基础知识嵌入向量:采用多输入Transformer结构通过词嵌入embedding将自然语言映射至向量空间,分别对基础知识序列D、用户特征信息P进行词嵌入编码,分别得到词嵌入序列向量X(D)和X(P),位置编码将词嵌入向量转变为包含各个频率的正弦和余弦向量表示,在高维向量空间捕捉词汇间的关系,得到带位置信息的词嵌入序列向量Xembed(D)和Xembed(P):
Xembed=Embedding+PositionalEncodering,
Embedding(D)=D·Wd,Embedding(P)=P·Wp,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310058399.8/2.html,转载请声明来源钻瓜专利网。