[发明专利]一种基于transformer架构的对话生成方法有效

申请号：	202010077900.1	申请日：	2020-02-01
公开（公告）号：	CN111274362B	公开（公告）日：	2021-09-03
发明（设计）人：	蔡贤涛;袁一鸣	申请（专利权）人：	武汉大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/332;G06F40/30
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	许莲英
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 transformer 架构对话生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于transformer架构的对话生成方法，用于解决基于背景知识的对话生成问题，属于自然语言处理领域。其主要步骤为将对话上文以及背景知识输入到微调后的文本预训练模型，分别得到对应的向量化表示。做阅读理解任务，通过训练好的阅读理解模型得到背景知识符合当前语境的概率分布。做文本生成任务，根据概率最高的知识片段与对话上文的向量化表示通过多头注意力机制得到综合语义向量。根据综合语义向量结合复制机制生成回复。使用该方法可以生成具有信息量的、自然的、符合当前语境的回复。

技术领域

本发明属于自然语言处理领域，尤其涉及一种基于transformer架构的对话生成方法。

背景技术

人工智能的目的是让机器人越来越像人，因此能够交流是机器人的必备技能之一。随着深度学习的发展，序列到序列(Seq2Seq)模型被广泛用于会话建模中，为了解决原始模型倾向于产生无意义或无聊的回答，信息量小，与事实不符等问题，在对话系统中引入了知识信息。知识主要有两种形式：结构化的知识如知识图谱，非结构化的知识如文档。非结构化的知识由于其天然属性显然更加适合于开放域的对话系统。当前解决利用非结构知识进行开放域的回复生成的策略有两种，一种是将其视作阅读理解任务，选择与当前语境最相关的知识片段作为回复，由于回复是背景知识中的一个连续的片段，无法包含背景知识文档中没有的词语，所以会存在不自然的问题。另一种思路是将其视作文本生成任务，但在文本生成任务中将背景知识与对话历史的价值等同，缺少了知识选择的过程，容易被无关的知识混淆。本专利综合了两种策略，先选择出符合当前语境的知识片段，再利用拷贝机制将相关知识融入到回复中。使用该方法可以生成具有信息量的、自然的、符合当前语境的回复。

发明内容

本发明的目的在于提供一种基于transformer架构的对话生成方法。解决对话生成倾向于产生无意义或无聊的回答，信息量小，与事实不符等问题。

基于上述目的，本文提供的解决技术方案为一种基于transformer架构的对话生成方法，具体包括如下步骤：

步骤1：将对话上文以及背景知识中的词映射为词嵌入，位置嵌入，分割嵌入，进一步得到词向量化表示；

步骤2：将对话上文以及背景知识的词向量化表示输入到BERT模型，分别得到对话上文以及背景知识对应的语义表示；

步骤3：基于对话上文以及背景知识对应的语义表示，进一步做阅读理解任务，计算背景知识中符合当前语境的概率分布；

步骤4：基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布，进一步做文本生成任务，通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量，根据综合语义向量结合复制机制生成回复；

作为优选，步骤1中所述的对话上文为：

X＝(x₁，x₂，...，x_I)# (1)

其中，x_j是X的第j个词，I为词的数量，j∈[1，I]；

步骤1中所述背景知识为：

K＝(k₁，k₂，...，k_N)# (2)