[发明专利]基于Transformer的中文智能对话方法有效
申请号: | 202011579830.6 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112612881B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 杨波;巩固;郑文锋;刘珊 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/126;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 中文 智能 对话 方法 | ||
本发明公开了一种基于Transformer的中文智能对话方法,先使用大规模的中文闲聊语料库LCCC(Large‑scale Cleaned Chinese Conversation)构建训练数据集,作为Transformer模型的输入,然后基于深度学习的方式对Transformer模型进行训练,直至Transformer模型收敛,最后,将待对话的输入序列输入至Transformer模型,通过Transformer模型实时输出期望输出序列,从而实现中文智能实时对话。
技术领域
本发明属于自然语言处理技术领域,更为具体地讲,涉及一种基于Transformer的中文智能对话方法。
背景技术
随着深度学习技术的快速发展,NLP(Nature language model,自然语言处理)领域也越来越多引入了深度学习技术,其效果相比传统的基于规则或者传统统计方法的处理方式有了长足的进步。而利用Transformer模型的预训练语言表示模型,如BERT(Bidirectional Encoder Representations from Transformers),在各项NLP任务中取得了比传统的方法表现更出色的成绩,因为Transformer改进了RNN最为人诟病的训练慢的特点。利用Self-attention机制实现快速并行,并且Transformer可以增加到非常深的深度,充分发掘神经网络(Deep Neural Networks,DNN)模型的特征,提升模型准确率。智能化的问答系统系统层出不穷,并且给带来了许多便利。
原始的Transformer模型由编码器(encoder)和解码器(decoder)组成,这种架构在机器翻译任务中取得的成功证实了模型的有效性。2018年发布的预训练语言模型BERT,使用Transformer的encoder为重要结构,曾在11项自然语言处理任务上取得最好成绩,预训练语言模型开始引起极大关注,并已经成为自然语言处理的新范式。而GPT更好的实现生成语言这一特点,使用了Transformer的decoder,GPT单向的语言模型大大提高了推理、问答等应用问题的效果。
基于Transformer的预训练语言模型极大的促进了开发领域对话的研究进展,但是目前这一技术在中文对话领域并未广泛应用
GPT网络架构是一个多层Transformer的decoder网络,原始的Transformer模型和GPT分别采用函数式和参数式的绝对位置编码方式,本模型中使用了完全函数式的相对位置编码,实验表明该位置编码方式使得模型在各个下游任务中得到明显提升。
对Transformer模型中跨层参数进行共享,随着Transformer Block层数的增加,参数数量呈指数增长。为了解决这个问题,使用了跨层参数共享的概念,学习第一个快的参数,并在剩下的5个层中重用该块,只共享注意力参数。
在训练过程中,优化器方面使用Adam优化器,通常在深度神经网络训练的BatchSize很大的情况下会对模型的泛化能力带来负面影响,而Adam优化器通过一个自适应的方式为每个参数调整学习率,能够在Batch Size很大的情况下不损失模型效果。
大规模的、高质量的中文对话数据对模型起着重要的作用,目前已知的问答系统仅能机械地的回答问题,回复常常答非所问,并未达到智能理解语义和语境的程度。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于Transformer的中文智能对话方法,基于深度学习算法,在理解语义和语境的基础上模拟输出流畅的、符合语境的回答。
为实现上述发明目的,本发明一种基于Transformer的中文智能对话方法,其特征在于,包括以下步骤:
(1)、使用大规模的中文闲聊语料库LCCC(Large-scale Cleaned ChineseConversation)构建训练数据集;
(1.1)、构建长度为N的输入序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011579830.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:立式永磁调速器
- 下一篇:一种web端实现三维互动的方法
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法